ebook img

Zastosowanie analiz Data Mining w przewidywaniu groźby upadłości lub konieczności PDF

15 Pages·2015·0.39 MB·Polish
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Zastosowanie analiz Data Mining w przewidywaniu groźby upadłości lub konieczności

ZASTOSOWANIE ANALIZ DATA MINING W PRZEWIDYWANIU GRO(cid:12)BY UPADŁO(cid:9)CI LUB KONIECZNO(cid:9)CI PROWADZENIA POST(cid:6)POWANIA UKŁADOWEGO PRZEDSI(cid:6)BIORSTWA – BUDOWA MODELI PREDYKCYJNYCH, OCENA ICH JAKO(cid:9)CI I WYBÓR MODELU MIROSŁAWA LASEK MAREK P(cid:7)CZKOWSKI DARIUSZ WIERZBA Uniwersytet Warszawski Streszczenie W artykule przedstawiono przydatno(cid:4)(cid:5) modeli Data Mining do przewidywania gro(cid:8)by upadło(cid:4)ci lub post(cid:3)powania układowego przedsi(cid:3)biorstwa. Opisano zastoso- wanie modeli predykcyjnych: regresji logistycznej, drzew decyzyjnych oraz sieci neuronowych. Rozwa(cid:2)ania zilustrowano posługuj(cid:6)c si(cid:3) danymi około sze(cid:4)ciu tysi(cid:3)cy przedsi(cid:3)biorstw, w(cid:4)ród których cz(cid:3)(cid:4)(cid:5) była zagro(cid:2)ona upadło(cid:4)ci(cid:6) lub post(cid:3)powaniem układowym. Słowa kluczowe: prognozowanie upadło(cid:9)ci lub post(cid:5)powania układowego przedsi(cid:5)biorstwa, modele predykcyjne Data Mining, regresja logistyczna, drzewa decyzyjne, sieci neuronowe 1.Wst(cid:8)p Celem artykułu jest przedstawienie wyników bada(cid:3) przydatno(cid:9)ci analiz Data Mining w wyło- nieniu cech sygnalizuj(cid:4)cych gro(cid:11)b(cid:5) upadło(cid:9)ci przedsi(cid:5)biorstwa lub skłaniaj(cid:4)cych do podj(cid:5)cia post(cid:5)powania układowego dla „uratowania” firmy oraz mo(cid:2)liwo(cid:9)ci pozyskania wiedzy, jak na podstawie znajomo(cid:9)ci warto(cid:9)ci tych cech mo(cid:2)na przewidzie(cid:12) zagro(cid:2)enie upadło(cid:9)ci(cid:4) lub koniecz- no(cid:9)ci(cid:4) prowadzenia post(cid:5)powania układowego. Pod poj(cid:5)ciem cech rozumie si(cid:5) tu charakterystyki kondycji finansowej i maj(cid:4)tkowej firmy, pochodz(cid:4)ce ze sprawozda(cid:3) finansowych (bilans, rachunek zysków i strat, rachunek przepływów pieni(cid:5)(cid:2)nych), takie jak maj(cid:4)tek trwały, maj(cid:4)tek obrotowy, stan (cid:9)rodków pieni(cid:5)(cid:2)nych, przychody ze sprzeda(cid:2)y, zobowi(cid:4)zania oraz wska(cid:11)niki charakteryzuj(cid:4)ce kondycj(cid:5) ekonomiczn(cid:4), do których nale(cid:2)(cid:4) wska(cid:11)niki płynno(cid:9)ci, zyskowno(cid:9)ci, aktywno(cid:9)ci i zadłu(cid:2)enia. Analizy Data Mining s(cid:4) to analizy realizowane za pomoc(cid:4) zaawansowanych metod statystycz- nych oraz metod sztucznej inteligencji, które pozwalaj(cid:4) wykrywa(cid:12) zale(cid:2)no(cid:9)ci mi(cid:5)dzy obiektami lub cechami opisuj(cid:4)cymi obiekty na podstawie nagromadzonych du(cid:2)ych zbiorów danych. Metody te pozwalaj(cid:4) na podstawie danych tworzy(cid:12) wiedz(cid:5) – budowa(cid:12) zale(cid:2)no(cid:9)ci, wskazywa(cid:12) wzorce, okre(cid:9)la(cid:12) trendy [4], [8], [10], [11]. 2.Dane wykorzystywane w prowadzeniu analiz Wykorzystywany przez nas zbiór danych obejmował dane 5828 przedsi(cid:5)biorstw. Spo(cid:9)ród tych przedsi(cid:5)biorstw a(cid:2) 4954 to przedsi(cid:5)biorstwa bardzo dobre, tzw. „gazele biznesu” polskiej gospo- 82 Mirosława Lasek, Marek P(cid:3)czkowski, Dariusz Wierzba Zastosowanie analiz Data Mining w przewidywaniu gro(cid:8)by upadło(cid:4)ci lub konieczno(cid:4)ci prowadzenia post(cid:3)powania układowego przedsi(cid:3)biorstwa… darki. S(cid:4) to dynamicznie rozwijaj(cid:4)ce si(cid:5) firmy o czystej reputacji i nie maj(cid:4)ce problemów finan- sowych. Pozostałe 874 przedsi(cid:5)biorstwa to firmy, wobec których s(cid:4)d ogłosił upadło(cid:9)(cid:12) oraz firmy, wobec których s(cid:4)d ogłosił post(cid:5)powanie układowe. Przedsi(cid:5)biorstw, wobec których s(cid:4)d ogłosił upadło(cid:9)(cid:12) – zgodnie z prawem upadło(cid:9)ciowym obowi(cid:4)zuj(cid:4)cym przed sierpniem 2003 r. lub upadło(cid:9)(cid:12) zakładaj(cid:4)c(cid:4) likwidacj(cid:5) firmy zgodnie z prawem upadło(cid:9)ciowym i post(cid:5)powaniem naprawczym, obowi(cid:4)zuj(cid:4)cym po sierpniu 2003 r., było w analizowanym zbiorze 402. Natomiast przedsi(cid:5)biorstw, wobec których s(cid:4)d ogłosił post(cid:5)powanie układowe było 472. Przyj(cid:5)to rozumie(cid:12) post(cid:5)powanie układowe zgodnie z prawem upadło(cid:9)ciowym obowi(cid:4)zuj(cid:4)cym przed 08.2003 lub reorganizacji firmy zgodnie z prawem upadło(cid:9)ciowym i post(cid:5)powaniem naprawczym obowi(cid:4)zuj(cid:4)- cym po 08.2003. Post(cid:5)powanie naprawcze jest form(cid:4) ochrony przed wierzycielami zgodnie z prawem upadło(cid:9)ciowym i post(cid:5)powaniem naprawczym, obowi(cid:4)zuj(cid:4)cym po 08.2003. Przedsi(cid:5)bior- stwa upadłe i z post(cid:5)powaniem układowym stanowiły 15,7% badanych przedsi(cid:5)biorstw, a 84,3% stanowiły „gazele”1. Pomijaj(cid:4)c „gazele” przedsi(cid:5)biorstw upadłych było 46%, a przedsi(cid:5)biorstw z post(cid:5)powaniem układowym 54%. Liczba analizowanych cech kondycji firm oraz wska(cid:11)ników - dalej nazywamy je tak(cid:2)e charakterystykami kondycji lub zmiennymi analizy - wynosiła ł(cid:4)cznie 144. Zostały uwzgl(cid:5)dnione wielko(cid:9)ci ze sprawozda(cid:3) finansowych, takie jak maj(cid:4)tek trwały, maj(cid:4)tek obrotowy, (cid:9)rodki pieni(cid:5)(cid:2)ne, suma aktywów, kapitał (fundusz) własny, zobowi(cid:4)zania długoterminowe, zobowi(cid:4)zania krótkoterminowe i fundusze specjalne, zobowi(cid:4)zania krótkotermi- nowe, przychody ze sprzeda(cid:2)y, amortyzacja, (cid:9)rodki pieni(cid:5)(cid:2)ne z działalno(cid:9)ci operacyjnej, (cid:9)rodki pieni(cid:5)(cid:2)ne z działalno(cid:9)ci inwestycyjnej, (cid:9)rodki pieni(cid:5)(cid:2)ne z działalno(cid:9)ci finansowej, zmiana stanu (cid:9)rodków netto, (cid:9)rodki na pocz(cid:4)tek roku obrotowego, (cid:9)rodki na koniec roku obrotowego oraz wska(cid:11)niki, takie jak zysk lub strata (zysk/strata) ze sprzeda(cid:2)y, zysk/strata na działalno(cid:9)ci operacyj- nej, zysk/strata brutto na działalno(cid:9)ci operacyjnej, zysk/strata brutto, zysk/strata netto. Uwzgl(cid:5)d- niono wska(cid:11)niki nale(cid:2)(cid:4)ce do 17 ró(cid:2)nych grup: płynno(cid:9)ci, rotacji aktywów (maj(cid:4)tku) trwałych, rotacji aktywów (maj(cid:4)tku) w dniach, rotacji kapitału, rotacji kapitałem w dniach, struktury kapitałowej, struktury maj(cid:4)tkowej, struktury maj(cid:4)tkowo-kapitałowej, efektywno(cid:9)ci pracy i warto(cid:9)ci dodanej, rentowno(cid:9)ci, rozwoju, struktury przychodów, struktury kosztów, rynku kapitałowego, d(cid:11)wigni finansowej i operacyjnej, wiarygodno(cid:9)ci kredytowej, tendencji. 3. Prowadzone analizy Przeprowadzono analizy danych, przyjmuj(cid:4)c ró(cid:2)ne sposoby podziału przedsi(cid:5)biorstw na gru- py i uwzgl(cid:5)dniania firm z grup o ró(cid:2)nej kondycji ekonomicznej. W pierwszej z przeprowadzonych analiz przedsi(cid:5)biorstwa upadłe i z post(cid:5)powaniem układowym traktowano ł(cid:4)cznie i porównywano z przedsi(cid:5)biorstwami „gazelami”. W analizie wzi(cid:5)ły wi(cid:5)c udział wszystkie badane przedsi(cid:5)bior- stwa. W budowanych modelach Data Mining zmienn(cid:4) obja(cid:9)nian(cid:4) była zmienna binarna, przyjmu- j(cid:4)ca warto(cid:9)(cid:12) 1, je(cid:2)eli przedsi(cid:5)biorstwo upadło lub ma post(cid:5)powanie układowe i 0, gdy jest „gazel(cid:4)”. W drugim przypadku starali(cid:9)my si(cid:5) zbada(cid:12), czy istniej(cid:4) istotne ró(cid:2)nice mi(cid:5)dzy przedsi(cid:5)- biorstwami upadłymi a przedsi(cid:5)biorstwami z post(cid:5)powaniem układowym („gazele” nie były uwzgl(cid:5)dniane). Analizowany zbiór przedsi(cid:5)biorstw liczył 874 przedsi(cid:5)biorstwa. Jako zmienn(cid:4) obja(cid:9)nian(cid:4) przyj(cid:5)to przedsi(cid:5)biorstwa upadłe, a zatem warto(cid:9)(cid:12) 1 zmiennej wskazywała przedsi(cid:5)- biorstwo upadłe, warto(cid:9)(cid:12) 0 – przedsi(cid:5)biorstwo z post(cid:5)powaniem układowym. Trzeci przypadek 1Zgodnie z zało(cid:2)eniami analiz Data Mining, w celu przyspieszenia oblicze(cid:7), rozkłady cech s(cid:6) ustalane na podstawie zbioru metadanych, stanowi(cid:6)cego losowy zbiór 2000 obserwacji całego zbioru danych. POLSKIE STOWARZYSZENIE ZARZ(cid:1)DZANIA WIEDZ(cid:1) 83 Seria: Studia i Materiały, nr 22, 2009 dotyczył przedsi(cid:5)biorstw upadłych i „gazel”. Przedsi(cid:5)biorstwa z post(cid:5)powaniem układowym nie były brane pod uwag(cid:5). Zbiór analizowanych przedsi(cid:5)biorstw obejmował 5356 firm (402 upadłych i 4954 „gazel”). Jako zmienn(cid:4) obja(cid:9)nian(cid:4) przyj(cid:5)to zmienn(cid:4) binarn(cid:4), okre(cid:9)laj(cid:4)c(cid:4) - firm(cid:5) upadł(cid:4) (warto(cid:9)(cid:12) 1) i „gazel(cid:5)” (warto(cid:9)(cid:12) 0). W czwartym przypadku nie wzi(cid:5)to pod uwag(cid:5) przedsi(cid:5)biorstw upadłych. Analizowane były przedsi(cid:5)biorstwa z post(cid:5)powaniem układowym i „gazele”, ł(cid:4)cznie 5426 przedsi(cid:5)biorstw. Interesowała nas analiza przedsi(cid:5)biorstw z post(cid:5)powaniem układowym i „gazel”, bez uwzgl(cid:5)dnienia sytuacji upadło(cid:9)ci. Jako zmienn(cid:4) obja(cid:9)nian(cid:4) przyj(cid:5)to zmienn(cid:4) binarn(cid:4) okre(cid:9)laj(cid:4)c(cid:4) firm(cid:5) z post(cid:5)powaniem układowym (warto(cid:9)(cid:12) 1 zmiennej) i przeciwny przypadek – nie ma post(cid:5)powania układowego, co oznacza „gazel(cid:5)”. 4. Zastosowane analizy i modele Data Mining W badaniu wykorzystali(cid:9)my program Enterprise Miner firmy SAS [5], [7]. Zgodnie z metodo- logi(cid:4) modelowania Data Mining wymaga on zbudowania diagramu, wyznaczaj(cid:4)cego przebieg przetwarzania. Diagram taki zamieszczono na rysunku 1. Elementami diagramu s(cid:4) w(cid:5)zły przetwa- rzania danych, poł(cid:4)czone strzałkami wskazuj(cid:4)cymi kierunek przetwarzania. W celu identyfikacji w(cid:5)złów maj(cid:4) one przypisane nazwy. Rys. 1. Diagram przebiegu przetwarzania danych (cid:13)ródło: Opracowanie własne przy wykorzystaniu programu Enterprise Miner. 5. Wprowadzanie danych do analizy i podział zbioru danych na zbiór treningowy, walida- cyjny i testowy W(cid:5)zeł MINER.FIRMY jest w(cid:5)złem wprowadzania danych wej(cid:9)ciowych (rys. 1). Jego nazwa jest jednocze(cid:9)nie nazw(cid:4) wej(cid:9)ciowego zbioru danych (nazwa ta składa si(cid:5) z nazwy biblioteki, w której umieszczony jest zbiór danych oraz nazwy tablicy z danymi). W(cid:5)zeł Data Partition jest w(cid:5)złem podziału zbioru danych na zbiory: treningowy, walidacyjny i testowy (rys. 1). Budowa modeli eksploracji danych Data Mining wymaga realizacji trzech etapów: trenowania, walidacji i testowania, i dla wykonania ka(cid:2)dego z tych etapów musimy utworzy(cid:12) oddzielne zbiory: trenin- gowy (Training Set), walidacyjny (Validation Set), testowy (Testing Set). Powstaj(cid:4) one przez podział (na ogół losowy) wej(cid:9)ciowego zbioru danych na trzy cz(cid:5)(cid:9)ci. Zbiór treningowy jest zbiorem 84 Mirosława Lasek, Marek P(cid:3)czkowski, Dariusz Wierzba Zastosowanie analiz Data Mining w przewidywaniu gro(cid:8)by upadło(cid:4)ci lub konieczno(cid:4)ci prowadzenia post(cid:3)powania układowego przedsi(cid:3)biorstwa… danych, na podstawie których wykrywamy mo(cid:2)liwe zale(cid:2)no(cid:9)ci mi(cid:5)dzy zmiennymi. Zbiór trenin- gowy jest u(cid:2)ywany do wst(cid:5)pnego oszacowania parametrów modelu. Zbiór walidacyjny jest u(cid:2)ywany do dostrojenia parametrów modelu, które zostały oszacowane w oparciu o zbiór trenin- gowy. U(cid:2)ycie tego zbioru poprawia własno(cid:9)ci predykcyjne modelu, tzn. model pozwala lepiej przewidywa(cid:12) warto(cid:9)ci zmiennych obja(cid:9)nianych dla nowych obserwacji, niewyst(cid:5)puj(cid:4)cych w dotychczas badanych zbiorach. Zbiór testowy jest zbiorem, który słu(cid:2)y do zbadania, na ile wykryte zale(cid:2)no(cid:9)ci s(cid:4) prawdziwe dla innych zbiorów danych. Domy(cid:9)ln(cid:4) metod(cid:4) podziału (cid:11)ródłowego zbioru danych na zbiór treningowy, walidacyjny i testowy jest losowanie proste (opcja Simple Random w programie Enterprise Miner). Domy(cid:9)lna metoda Simple Random dokonuje podziału zbioru danych na podzbiory: treningowy, walidacyjny i testowy w sposób losowy, oparty na losowaniu prostym, gdzie prawdopodobie(cid:3)stwo wej(cid:9)cia do ka(cid:2)dego z podzbiorów jest dla ka(cid:2)dej obserwacji takie samo. Przy takim post(cid:5)powaniu struktura ka(cid:2)dego z tworzonych podzbiorów powinna by(cid:12) podobna do struktury całego zbioru i mo(cid:2)emy przyj(cid:4)(cid:12), (cid:2)e ka(cid:2)dy z podzbiorów dobrze reprezentuje cały zbiór. Taki sposób podziału na zbiory treningowy, walidacyjny i testowy przyj(cid:5)li(cid:9)my w analizach przedstawianych w tym artykule. Przedstawiony powy(cid:2)ej sposób tworze- nia zbiorów: treningowego, walidacyjnego i testowego nie jest odpowiedni w sytuacji, gdy pewne warto(cid:9)ci zmiennych pojawiaj(cid:4) si(cid:5) w całym zbiorze bardzo rzadko (stanowi(cid:4)c przykładowo 1%, 0,2% wszystkich obiektów). Wówczas próba licz(cid:4)ca du(cid:2)o obserwacji (np. 1000) mo(cid:2)e zawiera(cid:12) tylko kilka przypadków przyjmuj(cid:4)cych okre(cid:9)lone warto(cid:9)ci danej zmiennej i nie jest mo(cid:2)liwe wierne odzwierciedlenie struktury całego zbioru danych. Przykładem takiego zbioru mo(cid:2)e by(cid:12) zbiór przedsi(cid:5)biorstw zawieraj(cid:4)cych mał(cid:4) liczb(cid:5) bankrutów. W takiej sytuacji zamiast metody Simple Random proponuje si(cid:5) inny sposób losowania, np. polegaj(cid:4)cy na losowaniu osobno z ka(cid:2)dego typu obiektów, nazywanych warstwami. Taki sposób losowania nazywa si(cid:5) losowaniem warstwowym (Stratified) i mo(cid:2)e on zapewni(cid:12) odpowiedni(cid:4) liczebno(cid:9)(cid:12) obserwacji posiadaj(cid:4)cych rzadk(cid:4) warto(cid:9)(cid:12) cechy w zbiorze treningowym, walidacyjnym i testowym w opisywanej sytuacji nierównomiernego rozkładu warto(cid:9)ci danych. Mo(cid:2)emy okre(cid:9)li(cid:12) udział procentowy, jaki b(cid:5)d(cid:4) stanowi(cid:12) dane treningowe, walidacyjne i testowe w zbiorze danych. Przyj(cid:5)li(cid:9)my w naszej analizie cz(cid:5)sto stosowane ustalenie domy(cid:9)lne (40% - zbiór treningowy, 30% - zbiór walidacyjny, 30% - zbiór testowy). 6. Wst(cid:8)pna selekcja zmiennych dla przeprowadzania bada(cid:4) Nast(cid:5)pny z umieszczonych w(cid:5)złów na diagramie (rys. 1), to w(cid:5)zeł Variable Selection. Ten w(cid:5)zeł umo(cid:2)liwia wybór zestawu zmiennych, które najsilniej wpływaj(cid:4) na warto(cid:9)ci zmiennej obja(cid:9)nianej. Jako kryterium wyboru zmiennych, narz(cid:5)dzie Variable Selection umo(cid:2)liwia wykorzy- stanie współczynników determinacji R2.2 W przypadku stosowania R2 ocena zmiennych dokony- wana jest na podstawie kryterium dobroci dopasowania (goodness-of-fit). Wykorzystywana jest technika krokowa wyboru zmiennych. Jest to procedura iteracyjna, która powoduje, (cid:2)e w kolejnych krokach poprawiana jest warto(cid:9)(cid:12) współczynnika determinacji R2. Zako(cid:3)czenie działania wyboru nast(cid:5)puje, gdy poprawa R2 jest mniejsza ni(cid:2) 0,005. Domy(cid:9)lnie, odrzucane s(cid:4) zmienne, których wkład w polepszenie wyniku jest mniejszy ni(cid:2) 0,005. Proces wyboru zmiennych przy przyj(cid:5)ciu 2 Alternatyw(cid:6) jest wybór zmiennych w oparciu o kryterium Chi-square, wykorzystuj(cid:6)ce miar(cid:3)χ2. POLSKIE STOWARZYSZENIE ZARZ(cid:1)DZANIA WIEDZ(cid:1) 85 Seria: Studia i Materiały, nr 22, 2009 kryterium R2 składa si(cid:5) w przypadku binarnej zmiennej obja(cid:9)nianej (binary target)3 z trzech kroków: (1) obliczane s(cid:4) kwadraty współczynników korelacji ka(cid:2)dej zmiennej ze zmienn(cid:4) obja- (cid:9)nian(cid:4) i nast(cid:5)pnie odrzucane s(cid:4) zmienne, które maj(cid:4) kwadrat współczynnika korelacji poni(cid:2)ej ustalonego poziomu (domy(cid:9)lnie 0,005), (2) pozostałe zmienne s(cid:4) brane pod uwag(cid:5) w procedurze regresji krokowej w przód (forward stepwise R2 regression). Zmienne, które powoduj(cid:4) polepszenie wyniku w stopniu mniejszym ni(cid:2) przyj(cid:5)te kryterium progowe s(cid:4) odrzucane, (3) dla binarnych zmiennych obja(cid:9)nianych przeprowadzana jest analiza regresji logistycznej z u(cid:2)yciem warto(cid:9)ci teoretycznych zmiennej obja(cid:9)nianej jako zmiennej niezale(cid:2)nej. Program podaje przyczyn(cid:5) odrzucenia zmiennej. W naszym przypadku zostało wybranych 30 zmiennych.4 7. Ocena jako(cid:1)ci modeli i wybór rodzaju przeprowadzanej analizy za pomoc(cid:7) modelu Zastosowali(cid:9)my trzy modele analizy danych [2], [3]: (1) regresji logistycznej (w(cid:5)zły RegStep, RegForw, RegBack), (2) drzew decyzyjnych (w(cid:5)zeł Tree), (3) sieci neuronowych (w(cid:5)zeł Neural Network). Porównanie jako(cid:9)ci tych modeli jest dokonywane w w(cid:5)(cid:11)le Assessment. Nim szczegóło- wo rozpatrzymy zastosowane modele, przyjrzyjmy si(cid:5) wykresom uzyskanym w w(cid:5)(cid:11)le Assessment. Wykresy te pozwalaj(cid:4) porówna(cid:12) tworzone modele pod wzgl(cid:5)dem ich jako(cid:9)ci i wybra(cid:12) najlepszy model, który mo(cid:2)e by(cid:12) zastosowany do wyja(cid:9)nienia zachowania si(cid:5) zmiennej zale(cid:2)nej i do prognozowania. W(cid:5)zeł Assessment umo(cid:2)liwia otrzymanie wykresu wzrostu (lift chart) pozwalaj(cid:4)- cego oceni(cid:12) wizualnie jako(cid:9)(cid:12) dopasowania modelu do danych i oceni(cid:12), który model jest pod tym wzgl(cid:5)dem najlepszy. Wykresy wzrostu pozwalaj(cid:4) oceni(cid:12) efektywno(cid:9)(cid:12) modelu pod wzgl(cid:5)dem trafno(cid:9)ci własno(cid:9)ci predykcyjno(cid:9)ci (przewidywania odpowiedzi). Na podstawie oszacowanego modelu, dla ka(cid:2)dej obserwacji w zbiorze walidacyjnym jest obliczane przewidywane prawdopodo- bie(cid:3)stwo sukcesu. Nast(cid:5)pnie obserwacje s(cid:4) ustawiane malej(cid:4)co według tych prawdopodobie(cid:3)stw i zbiór jest dzielony na 10 równych cz(cid:5)(cid:9)ci. Ka(cid:2)da cz(cid:5)(cid:9)(cid:12) tworzy grup(cid:5) decylow(cid:4) w zbiorze walida- cyjnym.5 Na wykresie zaznaczane s(cid:4) decyle na osi poziomej (oznaczane jako percentyle: 10, 20,...). Na osi pionowej s(cid:4) zaznaczane odpowiednie charakterystyki zale(cid:2)ne od liczby sukcesów w poszczególnych grupach decylowych. Enterprise Miner umo(cid:2)liwia wybór jednej z nast(cid:5)puj(cid:4)cych 3 Je(cid:2)eli zmienna obja(cid:4)niana nie jest binarna, s(cid:6) wykonywane tylko dwa pierwsze kroki. 4 Wybrane zmienne, to (kolejno(cid:4)(cid:5) alfabetyczna): Amortyzacja (AMORTYZACJA), Krótkoterminowe aktywa finansowe ((cid:4)rodki pieni(cid:3)(cid:2)ne) do aktywów ogółem (KAFSPDAO), Kapitał (fundusz) własny (KAPWL), Koszty finansowe do przychodów ogółem (KFDPO), Kapitał obrotowy netto do aktywów (maj(cid:6)tku) obrotowych (KONDAO), Korekty o pozycje (KORPOZ), Kapitał stały do aktywów ogółem (KSDAO), Kapitał własny do aktywów (maj(cid:6)tku) trwałych (KWDAT), Nadwy(cid:2)ka finansowa do aktywów ogółem (NFDAO), Nadwy(cid:2)ka finansowa do zobowi(cid:6)za(cid:7) krótkoterminowych (NFDZK), Nakłady inwestycyjne do aktywów ogółem (NIDAO), Obci(cid:6)(cid:2)enia finansowe (OF), Ryzyko likwidacji (RL), Wynik netto do aktywów ogółem (ROA) skorygowany (ROAS), Rotacja zobowi(cid:6)za(cid:7) krótkoterminowych (RZK), Udział aktywów (maj(cid:6)tku) obrotowych netto w aktywach (UAMONWA), Udział krótkoterminowych aktywów finansowych ((cid:4)rodków pieni(cid:3)(cid:2)nych) w aktywach (maj(cid:6)tku) obrotowych (UKAFAO), Udział kosztów działalno(cid:4)ci operacyjnej w kosztach uzyskania przychodu (UKDOWKUP), Udział kosztów finansowych w kosztach uzyskania przychodów (UKFWKUP), Udział przychodów finansowych w przychodach ogółem (UPFWPO), Udział zobowi(cid:6)za(cid:7) z tytułu podatków, ceł, ubezpiecze(cid:7) w zobowi(cid:6)za- niach krótkoterminowych (UZPCUZK), Udział zapasów w aktywach (maj(cid:6)tku) obrotowych (UZWAMO), Wynik na działalno(cid:4)ci operacyjnej do aktywów ogółem (WNDODAO), Wska(cid:8)nik unieruchomienia (WU), Zobowi(cid:6)zania z tytułu funduszy specjalnych do sprzeda(cid:2)y w dniach (ZFSDSD), Zobowi(cid:6)zania krótkoterminowe (ZOBKR), Zobowi(cid:6)zania krótkoterminowe i fundusze specjalne (ZOBKRIFS), Zysk/strata brutto (ZYNSB), Zysk/strata brutto na działalno(cid:4)ci operacyjnej (ZYNSBNDO), Zysk/strata ze sprzeda(cid:2)y (ZYNSZS). 5 W programie Enterprise Miner obserwacje s(cid:6) ustawiane malej(cid:6)co, a grupy decylowe s(cid:6) tworzone w odwrotnej kolejno(cid:4)ci, ni(cid:2) zazwyczaj w badaniach statystycznych. Pierwsza grupa decylowa zawiera najwi(cid:3)ksze warto(cid:4)ci. 86 Mirosława Lasek, Marek P(cid:3)czkowski, Dariusz Wierzba Zastosowanie analiz Data Mining w przewidywaniu gro(cid:8)by upadło(cid:4)ci lub konieczno(cid:4)ci prowadzenia post(cid:3)powania układowego przedsi(cid:3)biorstwa… charakterystyk (Vertical Axis Value): % Response, % Captured Response, Lift Value. Ka(cid:2)dy z wykresów mo(cid:2)e przedstawia(cid:12) warto(cid:9)ci skumulowane (Cumulative) lub nieskumulowane (Non- Cumulative). Sposób tworzenia warto(cid:9)ci na osi pionowej wyja(cid:9)niamy na przykładzie – tabela 1.6 Przypu(cid:9)(cid:12)my, (cid:2)e zbiór walidacyjny ma 1000 obserwacji, zatem ka(cid:2)da grupa decylowa ma 100 obserwacji. Załó(cid:2)my dalej, (cid:2)e w zbiorze walidacyjnym było 200 sukcesów (tzn. wyst(cid:4)piło badane zdarzenie) i rozkładały si(cid:5) one w nast(cid:5)puj(cid:4)cy sposób w grupach decylowych: 50, 40, 30, 20, 15, 20, 5, 5, 12, 3. W dobrze dopasowanym modelu udział pozytywnych odpowiedzi powinien by(cid:12) najwi(cid:5)kszy w ostatnich grupach decylowych, a mały w pocz(cid:4)tkowych grupach decylowych. Aby ułatwi(cid:12) interpretacj(cid:5) wykresu, jest on zaopatrzony w lini(cid:5) (baseline curve), która przedstawia wynik dla stałej liczby sukcesów wynikaj(cid:4)cej z prawdopodobie(cid:3)stwa sukcesu w zbiorze walidacyj- nym. Je(cid:2)eli krzywa jest zbli(cid:2)ona do prostej Baseline, to oznacza, (cid:2)e model jest słabo dopasowany do danych. Na rysunku 2 (a) i 2 (b) przedstawili(cid:9)my wykresy, wybieraj(cid:4)c opcj(cid:5) % Captured Response i Cumulative. Rysunek 2 (a) ilustruje przypadek analizy dwóch grup przedsi(cid:5)biorstw: grupy „gazel” oraz grupy przedsi(cid:5)biorstw z orzeczon(cid:4) upadło(cid:9)ci(cid:4) i prowadzeniem post(cid:5)powania układowego. Rysunek 2 (b) przedstawia wyniki, gdy nie uwzgl(cid:5)dniali(cid:9)my „gazel” i porównywali- (cid:9)my przedsi(cid:5)biorstwa z orzeczon(cid:4) upadło(cid:9)ci(cid:4) z przedsi(cid:5)biorstwami prowadz(cid:4)cymi post(cid:5)powanie układowe. W pierwszym przypadku modele charakteryzuj(cid:4) si(cid:5) dobr(cid:4) jako(cid:9)ci(cid:4), tzn. pozwalaj(cid:4) one odró(cid:2)ni(cid:12) przedsi(cid:5)biorstwa dobre („gazele”) i złe (upadłe lub z post(cid:5)powaniem układowym). W drugim przypadku wida(cid:12), (cid:2)e na podstawie wybranych zmiennych obja(cid:9)niaj(cid:4)cych nie mo(cid:2)na zadowalaj(cid:4)co prognozowa(cid:12), do której grupy (z orzeczon(cid:4) upadło(cid:9)ci(cid:4), czy te(cid:2) prowadzeniem post(cid:5)powania układowego) nale(cid:2)y przedsi(cid:5)biorstwo. Grupy te maj(cid:4) podobne własno(cid:9)ci. Dlatego w dalszych analizach zajmowali(cid:9)my si(cid:5) tylko przypadkiem porównywania własno(cid:9)ci „gazel” i traktowanych ł(cid:4)cznie przedsi(cid:5)biorstw upadłych lub zagro(cid:2)onych post(cid:5)powaniem układowym. Rysunek 2 (a) ukazał te(cid:2), (cid:2)e najlepsze pod wzgl(cid:5)dem własno(cid:9)ci predykcyjnych okazały si(cid:5) modele 6 W obliczeniach przyj(cid:3)to oznaczenia: N - liczba obserwacji w zbiorze walidacyjnym (1000), K - liczba sukcesów w zbiorze walidacyjnym (200), n - liczba obserwacji w grupie decylowej (N/10=100), k - (cid:4)rednia liczba sukcesów w grupie decylowej (K/10=20), m(j) - liczba pozytywnych odpowiedzi w j-tej grupie decylowej. Dla wykresów nieskumulowanych: % Response jest liczone jako udział (wyra(cid:2)ony w procentach) odpowiedzi pozytywnych w danej grupie decylowej. Jest to ułamek, w którym licznik wynosi m(j), mianownik wynosi n (patrz kolumna % Response). Np. 1 decyl - 50/100=50% , 2 decyl - 40/100 =40%. % Captured Response – jest to udział pozytywnych odpowiedzi znajduj(cid:6)cych si(cid:3) w danej grupie decylowej do wszystkich pozytywnych odpowiedzi. Licznik ułamka wynosi m(j), a mianownik wynosi K (patrz kolumna % Captured Response). Np. 1 decyl - 50/200=25% , 2 decyl - 40/200 =20%. Lift Value - jest to stosunek pozytywnych odpowiedzi w danej grupie decylowej do (cid:4)redniej liczby pozytywnych odpowiedzi przypadaj(cid:6)cej na grup(cid:3) decylow(cid:6). Licznik ułamka wynosi m(j), a mianownik wynosi k (patrz kolumna Lift Value). Np. 1 decyl - 50/20=2,50 , 2 decyl - 40/20 =2,00. Zatem dla warto(cid:4)ci nieskumulowanych licznik ułamka wynosi zawsze m(j), a mianownik ułamka jest stały, ale ró(cid:2)ny dla ró(cid:2)nych rodzajów wykresów. Dla wykresów skumulowanych licznik ułamków zawiera skumulowan(cid:6) liczb(cid:3) pozytywnych odpowiedzi: M(1)=m(1), M(j)=M(j-1)+m(j) dla j=2,...,10. % Response jest liczone jako udział (wyra(cid:2)ony w procentach) odpowiedzi pozytywnych w danej grupie decylowej i w grupach decylowych wcze(cid:4)niejszych. Licznik ułamka wynosi M(j), a mianownik wynosi j(cid:9)n (patrz kolumna % Response). Np. 1 decyl - 50/100=50% , 2 decyl - (50+40)/(2*100) =90/200=45%. % Captured Response – stosunek pozytywnych odpowiedzi znajduj(cid:6)cych si(cid:3) w danej grupie decylowej i w grupach decylowych poprzednich do wszystkich pozytywnych odpowiedzi. Licznik ułamka wynosi M(j), a mianownik jest stały i wynosi K (patrz kolumna % Captured Response). Np. 1 decyl - 50/200=25% , 2 decyl - (50+40)/200 =45%. Lift Value - jest to stosunek pozytywnych odpowiedzi w danej grupie decylowej i w grupach decylowych poprzednich do przewidywanej liczby pozytywnych odpowiedzi w tych grupach decylowych (gdyby pozytywne odpowiedzi rozkładały si(cid:3) po równo w grupach decylowych). Licznik ułamka wynosi M(j), a mianownik wynosi j(cid:9)n (patrz kolumna Lift Value). Np. 1 decyl - 50/20=2,50, 2 decyl - (50+40)/(2*20) =90/40=2,25. W naszym przykładzie otrzymali(cid:4)my lini(cid:3) bazow(cid:6) (baseline curve), gdy wszystkie m(j)=k=20. POLSKIE STOWARZYSZENIE ZARZ(cid:1)DZANIA WIEDZ(cid:1) 87 Seria: Studia i Materiały, nr 22, 2009 regresji logistycznej i sieci neuronowych, a najgorzej dopasowanym do danych okazał si(cid:5) model drzew decyzyjnych Tree. Tabela 1. Obliczenia wykonywane dla zbudowania wykresu wzrostu (lift chart) Nieskumulowane Skumulowane Grupa Odpowiedzi %Cap- Odpowiedzi % %Cap- decy- % Lift Lift pozytywne tured pozytywne Re- tured lowa Response Value Value w decylu Response w decylu sponse Response 1 50 50,0% 25,0% 2,50 50 50,0% 25,0% 2,50 2 40 40,0% 20,0% 2,00 90 45,0% 45,0% 2,25 3 30 30,0% 15,0% 1,50 120 40,0% 60,0% 2,00 4 20 20,0% 10,0% 1,00 140 35,0% 70,0% 1,75 5 15 15,0% 7,5% 0,75 155 31,0% 77,5% 1,55 6 20 20,0% 10,0% 1,00 175 29,2% 87,5% 1,46 7 5 5,0% 2,5% 0,25 180 25,7% 90,0% 1,29 8 5 5,0% 2,5% 0,25 185 23,1% 92,5% 1,16 9 12 12,0% 6,0% 0,60 197 21,9% 98,5% 1,09 10 3 3,0% 1,5% 0,15 200 20,0% 100,0% 1,00 (cid:13)ródło: Opracowanie własne. (a) (b) Rys. 2. Wykresy oceny opracowywanych modeli (cid:13)ródło: Opracowanie własne przy wykorzystaniu programu Enterprise Miner. 8. Modele regresji Regresja logistyczna umo(cid:2)liwia oszacowanie prawdopodobie(cid:3)stw, z jakimi dany obiekt nale(cid:2)y do grup okre(cid:9)lonych przez kategorie jako(cid:9)ciowej zmiennej obja(cid:9)nianej. Generowana jest funkcja 88 Mirosława Lasek, Marek P(cid:3)czkowski, Dariusz Wierzba Zastosowanie analiz Data Mining w przewidywaniu gro(cid:8)by upadło(cid:4)ci lub konieczno(cid:4)ci prowadzenia post(cid:3)powania układowego przedsi(cid:3)biorstwa… nieliniowa, której warto(cid:9)ci s(cid:4) interpretowane jako prawdopodobie(cid:3)stwa lub warunkowe warto(cid:9)ci oczekiwane zmiennej zale(cid:2)nej. Do oszacowania parametrów funkcji logistycznej wykorzystywana jest Metoda Najwi(cid:5)kszej Wiarygodno(cid:9)ci. Jest to technika iteracyjna. Je(cid:2)eli stosujemy dobór zmiennych obja(cid:9)niaj(cid:4)cych do modelu, to podczas realizacji procedury badane s(cid:4) własno(cid:9)ci statystyczne modelu i sprawdza si(cid:5), czy dodanie lub usuni(cid:5)cie zmiennej istotnie polepszyło model. Je(cid:2)eli nie ma istotnej zmiany, to procedura zostaje zako(cid:3)czona. W programie Enterprise Miner dost(cid:5)pne s(cid:4) nast(cid:5)puj(cid:4)ce metody doboru zmiennych obja(cid:9)niaj(cid:4)cych do modelu: (1) krokowa (stepwise) – zmienne obja(cid:9)niaj(cid:4)ce s(cid:4) kolejno wprowadzane do modelu, zaczynaj(cid:4)c od modelu bazowego (bez zmiennych obja(cid:9)niaj(cid:4)cych); dodawane s(cid:4) zmienne, które s(cid:4) znacz(cid:4)co powi(cid:4)zane ze zmienn(cid:4) obja(cid:9)nian(cid:4). Wprowadzona do modelu zmienna mo(cid:2)e zosta(cid:12) usuni(cid:5)ta, je(cid:2)eli polepszy to warto(cid:9)(cid:12) przyj(cid:5)tej miary jako(cid:9)ci modelu. W tej metodzie zmienne wprowadzane we wcze(cid:9)niejszym etapie mog(cid:4) zosta(cid:12) usuni(cid:5)te pó(cid:11)niej, je(cid:2)eli oka(cid:2)e si(cid:5), (cid:2)e b(cid:5)d(cid:4)c w(cid:9)ród zmiennych w modelu nie przyczyniaj(cid:4) si(cid:5) do jego polepszenia. (2) w przód (forward) – zmienne obja(cid:9)niaj(cid:4)ce s(cid:4) kolejno wprowadzane do modelu. Najpierw rozpatruje si(cid:5) model bez zmiennych obja(cid:9)niaj(cid:4)cych. Potem dodaje si(cid:5) zmienn(cid:4) najsilniej skorelowan(cid:4) ze zmienn(cid:4) obja(cid:9)nian(cid:4). Potem dodaje si(cid:5) kolejn(cid:4) zmienn(cid:4), która polepsza model a(cid:2) osi(cid:4)gnie si(cid:5) najlepsz(cid:4) jako(cid:9)(cid:12) modelu. Zmienne wprowadzone do modelu nie s(cid:4) usuwane; (3) w tył (backward) – najpierw jest rozwa(cid:2)any model ze wszystkimi zmiennymi obja(cid:9)niaj(cid:4)cymi, a nast(cid:5)pnie kolejno s(cid:4) usuwane zmienne, które nie wywieraj(cid:4) znacz(cid:4)cego wpływu na zmienn(cid:4) obja(cid:9)nian(cid:4). Post(cid:5)powanie kontynuuje si(cid:5) do momentu, gdy usuni(cid:5)cie kolejnej zbadanej zmiennej nie daje znacz(cid:4)cej poprawy. Zmienne usuni(cid:5)te nie s(cid:4) ju(cid:2) wprowadzane do modelu. Wyniki estymacji modelu mo(cid:2)na przedstawi(cid:12) w postaci graficznej. Rys. 3. Wyniki z modelu regresji krokowej (cid:13)ródło: Opracowanie własne przy wykorzystaniu programu Enterprise Miner. Oznaczenia: ksdao – kapitał stały do aktywów ogółem, upfwpo – udział przychodów finansowych w przychodach ogółem, of – obci(cid:4)(cid:2)enia finansowe, nidao – nakłady inwestycyjne do aktywów ogółem, kwdat – kapitał własny do aktywów (maj(cid:4)tku) trwałych, nfdao – nadwy(cid:2)ka finansowa do aktywów ogółem, uzpcuzk – udział zobowi(cid:4)za(cid:3) z tytułu podatków, ceł, ubezpiecze(cid:3) w zobowi(cid:4)zaniach, ukfwkup – udział kosztów finansowych w kosztach uzyskania przychodów, wu POLSKIE STOWARZYSZENIE ZARZ(cid:1)DZANIA WIEDZ(cid:1) 89 Seria: Studia i Materiały, nr 22, 2009 – wska(cid:11)nik unieruchomienia, wndodao – wynik na działalno(cid:9)ci operacyjnej do aktywów ogółem, uu – zmienna obja(cid:9)niana: przedsi(cid:5)biorstwo z orzeczeniem upadło(cid:9)ci lub z post(cid:5)powaniem układowym Przyjrzyjmy si(cid:5) wynikom uzyskanym w przypadku poszczególnych modeli regresji. Rozpatrzmy przykładowo wykresy dla regresji krokowej (rys 3). Pierwszy wykres (w lewej cz(cid:5)(cid:9)ci) przedstawia zmienne obja(cid:9)niaj(cid:4)ce wyst(cid:5)puj(cid:4)ce w oszacowanym modelu, uporz(cid:4)dkowane malej(cid:4)co według warto(cid:9)ci bezwzgl(cid:5)dnych współczynników t-Studenta (Effect T-scores). Warto(cid:9)ci ujemne s(cid:4) zaznaczone słupkami – jasnym kolorem, warto(cid:9)ci dodatnie – ciemnym. Legenda umieszczona w dolnej cz(cid:5)(cid:9)ci wykresów pozwala na prawidłow(cid:4) interpretacj(cid:5) warto(cid:9)ci wska(cid:11)nika Effect T- scores dla ka(cid:2)dego ze słupków na wykresach. Współczynnik t-Studenta jest ilorazem oszacowania parametru stoj(cid:4)cego przy zmiennej modelu i jego bł(cid:5)du szacunku. Warto(cid:9)(cid:12) bezwzgl(cid:5)dna tego wska(cid:11)nika informuje o istotno(cid:9)ci zmiennej w oszacowanym modelu. Zmienne na wykresach s(cid:4) uporz(cid:4)dkowane malej(cid:4)co według warto(cid:9)ci bezwzgl(cid:5)dnej wska(cid:11)nika. Na rysunku 3 – w prawej cz(cid:5)(cid:9)ci, przedstawiono wyniki w postaci wykresu, przedstawiaj(cid:4)cego zale(cid:2)no(cid:9)(cid:12) mi(cid:5)dzy warto(cid:9)ciami przewidywanymi (into) a obserwowanymi (from) warto(cid:9)ciami zmiennej obja(cid:9)nianej. Wykres jest graficzn(cid:4) ilustracj(cid:4) tablicy klasyfikacji krzy(cid:2)owej. Słupki na głównej przek(cid:4)tnej dotycz(cid:4) przedsi(cid:5)biorstw, dla których model poprawnie przewiduje warto(cid:9)(cid:12) zmiennej obja(cid:9)nianej. Je(cid:2)eli model jest dobry, to powinna istnie(cid:12) zgodno(cid:9)(cid:12) warto(cid:9)ci przewidywanych (oczekiwanych) z warto(cid:9)ciami obserwowanymi: słupki na wykresie na przeci(cid:5)ciu tych samych warto(cid:9)ci into i from powinny by(cid:12) najwy(cid:2)sze. Tak jest w naszym przypadku, co wskazuje, (cid:2)e model dobrze nadaje si(cid:5) do identyfikacji przedsi(cid:5)biorstw z orzeczon(cid:4) upadło(cid:9)ci(cid:4) lub post(cid:5)powaniem układowym. Zmienne o najwi(cid:5)kszej istotno(cid:9)ci w przypadku modelu regresji w przód oraz w tył zamieszczono w przypisie.7 W przypadku tych modeli, podobnie jak regresji krokowej, tak(cid:2)e istnieje zgodno(cid:9)(cid:12) warto(cid:9)ci przewidywanych z warto(cid:9)ciami obserwowanymi, co mogli(cid:9)my stwierdzi(cid:12) analizuj(cid:4)c wykres ilustracji tablicy klasyfikacji krzy(cid:2)owej. 9. Drzewa decyzyjne Drzewa decyzyjne stanowi(cid:4) graficzn(cid:4) reprezentacj(cid:5) algorytmu rekurencyjnego podziału, który polega na hierarchicznym podziale wielowymiarowej przestrzeni cech (w której znajduje si(cid:5) zbiór obiektów) na rozł(cid:4)czne podzbiory a(cid:2) do osi(cid:4)gni(cid:5)cia ich jednorodno(cid:9)ci ze wzgl(cid:5)du na wyró(cid:2)nion(cid:4) cech(cid:5) – zmienn(cid:4) obja(cid:9)nian(cid:4). W praktyce proces podziału jest cz(cid:5)sto zatrzymywany wcze(cid:9)niej, aby unikn(cid:4)(cid:12) tworzenia podzbiorów o bardzo małej liczbie elementów. Warunkiem zatrzymania procesu podziału, mo(cid:2)e by(cid:12) maksymalna warto(cid:9)(cid:12) okre(cid:9)laj(cid:4)ca liczb(cid:5) poziomów drzewa (oznacza to 7 Zmienne obja(cid:4)niaj(cid:6)ce o najwi(cid:3)kszej istotno(cid:4)ci w przypadku modelu regresji w przód: nidao – nakłady inwestycyjne do aktywów ogółem, upfwpo – udział przychodów finansowych w przychodach ogółem, ksdao – kapitał stały do aktywów ogółem, of – obci(cid:6)(cid:2)enia finansowe, uzpcuzk – udział zobowi(cid:6)za(cid:7) z tytułu podatków, ceł, ubezpiecze(cid:7) w zobowi(cid:6)zaniach, nfdao – nadwy(cid:2)ka finansowa do aktywów ogółem, kwdat – kapitał własny do aktywów (maj(cid:6)tku) trwałych, ukfwkup – udział kosztów finansowych w kosztach uzyskania przychodów, wu – wska(cid:8)nik unieruchomienia, wndodao – wynik na działalno(cid:4)ci operacyjnej do aktywów ogółem, uzwamo – udział zapasów w aktywach (maj(cid:6)tku) obrotowych. Zmienne obja(cid:4)niaj(cid:6)ce o najwi(cid:3)kszej istotno(cid:4)ci w przypadku modelu regresji w tył: nfdao – nadwy(cid:2)ka finansowa do aktywów ogółem, upfwpo – udział przychodów finansowych w przychodach ogółem, of – obci(cid:6)(cid:2)enia finansowe, ksdao – kapitał stały do aktywów ogółem, nidao – nakłady inwestycyjne do aktywów ogółem, uzpcuzk – udział zobowi(cid:6)za(cid:7) z tytułu podatków, ceł, ubezpiecze(cid:7) w zobowi(cid:6)zaniach, kwdat – kapitał własny do aktywów (maj(cid:6)tku) trwałych, kfdpo – koszty finansowe do przychodów ogółem, zynszs – zys/strata ze sprzeda(cid:2)y, amortyzacja, korpoz – korekty o pozycje. 90 Mirosława Lasek, Marek P(cid:3)czkowski, Dariusz Wierzba Zastosowanie analiz Data Mining w przewidywaniu gro(cid:8)by upadło(cid:4)ci lub konieczno(cid:4)ci prowadzenia post(cid:3)powania układowego przedsi(cid:3)biorstwa… osi(cid:4)gni(cid:5)cie maksymalnej „gł(cid:5)boko(cid:9)ci drzewa”) lub osi(cid:4)gni(cid:5)cie minimalnej liczebno(cid:9)ci w w(cid:5)złach podlegaj(cid:4)cych podziałowi. Drzewa s(cid:4) grafami spójnymi, nie zawieraj(cid:4)cymi cykli. Drzewa decy- zyjne umo(cid:2)liwiaj(cid:4) przedstawianie procesu podziału zbioru obiektów na jednorodne klasy, charak- teryzowane okre(cid:9)lonymi warto(cid:9)ciami atrybutów. Wewn(cid:5)trzne wierzchołki okre(cid:9)laj(cid:4) sposób dokonywania podziału w oparciu o warto(cid:9)ci cech obiektów. Wierzchołki ko(cid:3)cowe, z których nie wychodz(cid:4) (cid:2)adne kraw(cid:5)dzie, nazywane s(cid:4) li(cid:9)(cid:12)mi drzewa. Kraw(cid:5)dzie drzewa wskazuj(cid:4) warto(cid:9)ci cech, na podstawie których dokonywany jest podział. Na podstawie drzewa klasyfikacyjnego mo(cid:2)emy odczyta(cid:12) reguły przynale(cid:2)no(cid:9)ci obiektów do poszczególnych klas. Istniej(cid:4) ró(cid:2)ne algoryt- my generowania drzew klasyfikacyjnych: Chaid, Exhaustive Chaid, C&RT, Quest. Algorytmy ró(cid:2)ni(cid:4) si(cid:5) sposobem wyboru cech, w oparciu o które nast(cid:5)puje podział zbioru obiektów, kryterium zako(cid:3)czenia podziału powstaj(cid:4)cego podzbioru obiektów, sposobem przydzielania obiektów znajduj(cid:4)cych si(cid:5) w li(cid:9)ciu drzewa do okre(cid:9)lonej klasy, postaci(cid:4) funkcji oceniaj(cid:4)cej jako(cid:9)(cid:12) podziału, sposobem klasyfikacji obiektów o brakuj(cid:4)cych warto(cid:9)ciach cech, charakterem rozpatrywanych zmiennych (cech obiektów): nominalne, porz(cid:4)dkowe, ci(cid:4)głe. Tworzone s(cid:4) drzewa klasyfikacyjne lub regresyjne. Algorytmy klasyfikacyjne pozwalaj(cid:4) na podstawie zbioru ucz(cid:4)cego znale(cid:11)(cid:12) charakterystyki podzbiorów obiektów, tak aby w oparciu o uzyskane wyniki podziału mo(cid:2)na było dokona(cid:12) klasyfikacji obiektów, których przynale(cid:2)no(cid:9)(cid:12) do klas nie jest znana. W algorytmach regresyjnych celem jest znalezienie zwi(cid:4)zku opisuj(cid:4)cego wpływ jednej lub wybranej liczby cech na wskazan(cid:4) cech(cid:5) ilo(cid:9)ciow(cid:4). Zalety drzew decyzyjnych w stosunku do metod takich jak analiza dyskryminacyjna, czy analiza regresji s(cid:4) nast(cid:5)puj(cid:4)ce: (i) unika si(cid:5) konieczno(cid:9)ci weryfikowania zało(cid:2)e(cid:3) dotycz(cid:4)cych rozkładów zmiennych obja(cid:9)niaj(cid:4)cych, (ii) w modelu mog(cid:4) wyst(cid:5)powa(cid:12) jednocze(cid:9)nie zmienne jako(cid:9)ciowe i ilo(cid:9)ciowe, (iii) metody s(cid:4) mało wra(cid:2)liwe na wyst(cid:5)powanie warto(cid:9)ci odstaj(cid:4)cych (outliers) dla zmiennych obja(cid:9)niaj(cid:4)cych, (iv) wykazuj(cid:4) tolerancj(cid:5) na poja- wianie si(cid:5) brakuj(cid:4)cych warto(cid:9)ci obserwowanych zmiennych, (v) dobór zmiennych obja(cid:9)niaj(cid:4)cych jest dokonywany automatycznie podczas działania algorytmu. Problemy czasem stwarza du(cid:2)a zło(cid:2)ono(cid:9)(cid:12) drzewa, a tak(cid:2)e mo(cid:2)liwo(cid:9)(cid:12) ró(cid:2)nej interpretacji uzyskanych wyników. Nie ma tak(cid:2)e (cid:2)adnych wskazówek dotycz(cid:4)cych wyboru optymalnego modelu. Ustalenia takie jak chocia(cid:2)by wybór metody generowania drzewa, liczby poziomów drzewa, reguł zatrzymania procedury generuj(cid:4)cej drzewo s(cid:4) podejmowane dosy(cid:12) arbitralnie. Przydatne jest przeprowadzanie wielu ró(cid:2)nych eksperymentów przy zastosowaniu ró(cid:2)nych modeli i zało(cid:2)e(cid:3). W przypadku jako(cid:9)ciowej zmiennej obja(cid:9)nianej ka(cid:2)dy w(cid:5)zeł drzewa programu Enterprise Miner zawiera domy(cid:9)lnie informa- cje: w pierwszej kolumnie warto(cid:9)ci zmiennej obja(cid:9)nianej (1 lub 0) i nagłówek dla ostatniego wiersza (Total), w drugiej kolumnie dla danych ze zbioru danych treningowych - w dwóch pierwszych wierszach udział procentowy liczby obserwacji (firm) dla ka(cid:2)dej warto(cid:9)ci zmiennej, w dwóch nast(cid:5)pnych wierszach: liczby obserwacji (firm) dla ka(cid:2)dej warto(cid:9)ci zmiennej, w ostatnim wierszu ł(cid:4)czn(cid:4) liczb(cid:5) obserwacji (firm), w trzeciej kolumnie te same dane co w drugiej, ale dla danych ze zbioru danych walidacyjnych. Drzewo uzyskane w wyniku badania zbioru danych grupy „gazel” oraz grupy przedsi(cid:5)biorstw z orzeczeniem upadło(cid:9)ci lub post(cid:5)powaniem układowym przedstawiono na rysunku 4. Wyniki przedstawiono w postaci tradycyjnej drzewa decyzyjnego, cho(cid:12) Enterprise Miner pozwala prze- prowadzi(cid:12) znacznie bogatsz(cid:4) analiz(cid:5) wyników i ró(cid:2)ne postacie wykresów ilustruj(cid:4)cych drzewa decyzyjne, np. w postaci pier(cid:9)cienia. Rysunek drzewa wskazuje, (cid:2)e o podziale na firmy upadłe i z post(cid:5)powaniem układowym oraz „gazele” najsilniejszy wpływ ma zmienna zysk/strata brutto na działalno(cid:9)ci operacyjnej. Pozostałe zmienne decyduj(cid:4)ce o podziale, to wynik netto do aktywów

Description:
Pod pojęciem cech rozumie się tu charakterystyki kondycji finansowej i majątkowej firmy, pochodzące dotyczył przedsiębiorstw upadłych i „gazel”.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.