M´etodos de classifica¸c˜ao supervisionada para detec¸c˜ao de erros em transac¸c˜oes de mercado externo C´atia Sofia Correia da Cunha Disserta¸ca˜o para a obten¸ca˜o do Grau de Mestre em Matem´atica e Aplica¸c˜oes Ju´ri Presidente: Doutor Anto´nio Manuel Pacheco Pires Orientador: Doutora Ana Maria Pires Parente Co-orientador: Doutor Carlos Soares (LIAAD-INESC Porto - FEP) Vogal: Doutor Francisco Miguel Dion´ısio Maio 2009 Resumo As transac¸co˜es comerciais externas – importac¸˜oes e exporta¸co˜es – sa˜o reportadas ao InstitutoNacionaldeEstat´ıstica–INE,queastrabalhaporformaagerarestat´ısticas. Visto que, a existˆencia de erros nos dados relativos as transac¸co˜es tem um grande impacto nas estat´ısticas publicadas, a detec¸ca˜o desses casos ´e da maior importˆancia. Uma pr´evia selec¸ca˜o autom´atica de dados suscept´ıveis de conterem erros, reduziria o conjunto de observa¸co˜es para ana´lise, o que auxiliaria consideravelmente a morosa tarefa de detecc¸˜ao de erros. Esta disserta¸c˜ao pretende aplicar m´etodos supervisionados na detec¸ca˜o de erros nos dados relativos a`s ditas transacc¸˜oes de com´ercio externo, com o objectivo de ultra- passar a problema´tica inerente `a raridade dos eventos. Palavras-chave Detec¸ca˜o de casos raros, detec¸ca˜o de erros, outliers, conjuntos desequilibrados, data mining. ii Abstract The foreign trade transactions – importations and exportations – are reported to the Portuguese Institute of Statistics – INE, that treats them in order to generate statistics. Since, the existence of errors in transactions data has a great impact in the statistics published, the detection of these cases is of major importance. A previous automatic selection of data likely to have errors, would reduce the analy- sis observation set, which would considerably help the lasting task of detecting errors. This dissertation intends to apply supervised methods in the detection of errors in data of foreign trade transactions, with the objective of overcome the problematic inherent to the events’ rarity. Key-words Rare cases detection, error detection, outliers, imbalanced datasets, data mining. iii Agradecimentos Este trabalho foi apoiado pelos projectos Rank! (PTDC/EIA/81178/2006) e Oranki (PTDC/EIA/68322/2006), financiados pela FCT. Ao meus av´os, Eitel e Imelda da Cunha. C´atia Cunha iv Conteu´do Resumo ii Abstract iii Agradecimentos iv Lista de Tabelas vii Lista de Figuras viii 1 Introdu¸c˜ao 1 1.1 Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Motiva¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Objectivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4 Estrutura do Relat´orio . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2 Extrac¸c˜ao de Conhecimento para Detec¸c˜ao de Erros 6 2.1 Extrac¸ca˜o de Conhecimento de Dados . . . . . . . . . . . . . . . . . . 6 2.1.1 Metodologias . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.2 Manipula¸c˜ao de Dados . . . . . . . . . . . . . . . . . . . . . . 12 ´ 2.1.3 Arvores de Decis˜ao . . . . . . . . . . . . . . . . . . . . . . . . 13 2.1.4 Redes Neuronais . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.1.5 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2 Data Mining para Detec¸ca˜o de Erros . . . . . . . . . . . . . . . . . . 18 3 Detec¸c˜ao de Erros em Transac¸co˜es do Com´ercio Externo 22 3.1 Enquadramento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2 Abordagens Anteriores . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4 An´alise Explorato´ria 25 4.1 Vari´aveis Nominais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.1.1 Lote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.1.2 Declara¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 v 4.1.3 Declarante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.1.4 Nu´mero de adi¸c˜oes . . . . . . . . . . . . . . . . . . . . . . . . 28 4.1.5 Pa´ıs de proveniˆencia/destino . . . . . . . . . . . . . . . . . . . 29 4.1.6 C´odigo de mercadoria . . . . . . . . . . . . . . . . . . . . . . . 29 4.1.7 Nu´mero de adi¸c˜oes por mercadoria . . . . . . . . . . . . . . . 29 4.1.8 Classe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.2 Vari´aveis Cont´ınuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.2.1 Massa l´ıquida . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.2.2 Valor facturado . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.2.3 R´acio entre o valor facturado e a massa . . . . . . . . . . . . . 36 4.2.4 M´edia do ra´cio . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.2.5 Desvio padra˜o do ra´cio . . . . . . . . . . . . . . . . . . . . . . 41 4.2.6 Distˆancia normalizada . . . . . . . . . . . . . . . . . . . . . . 44 5 Estudo Experimental 47 5.1 Descri¸ca˜o da Abordagem . . . . . . . . . . . . . . . . . . . . . . . . . 47 5.2 Manipula¸c˜ao dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.3 Diagramas SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 5.3.1 Problema Inicial . . . . . . . . . . . . . . . . . . . . . . . . . 49 5.3.2 Manipula¸c˜ao de Custos . . . . . . . . . . . . . . . . . . . . . . 52 5.3.3 Oversampling . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.3.4 Undersampling . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.3.5 Combina¸ca˜o de T´ecnicas . . . . . . . . . . . . . . . . . . . . . 64 6 Conclus˜oes e Desenvolvimentos Futuros 68 A Detalhes de Implementa¸c˜ao SAS 70 A.1 Explora¸c˜ao dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . 70 A.2 SQL de Explora¸ca˜o dos Dados . . . . . . . . . . . . . . . . . . . . . . 70 A.3 Outros Diagramas SAS . . . . . . . . . . . . . . . . . . . . . . . . . . 74 A.4 Outros Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 A.5 Configura¸co˜es Standard dos n´os SAS . . . . . . . . . . . . . . . . . . 92 Referˆencias Bibliogr´aficas 97 vi Lista de Tabelas 2.1 Classifica¸ca˜o de t´ecnicas de data mining . . . . . . . . . . . . . . . . 8 4.1 Resumo das varia´veis cont´ınuas . . . . . . . . . . . . . . . . . . . . . 27 4.2 Vari´avel lote por mˆes . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.3 Vari´avel declarac¸˜ao por mˆes . . . . . . . . . . . . . . . . . . . . . . . 28 4.4 Vari´avel declarante por mˆes . . . . . . . . . . . . . . . . . . . . . . . 28 4.5 Vari´avel nu´mero de adic¸˜oes por mˆes . . . . . . . . . . . . . . . . . . . 29 4.6 Vari´avel mercadoria por mˆes . . . . . . . . . . . . . . . . . . . . . . . 29 4.7 Vari´avel classe por mˆes . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.8 Vari´avel massa l´ıquida por mˆes . . . . . . . . . . . . . . . . . . . . . 32 4.9 Vari´avel massa l´ıquida com classe 0 . . . . . . . . . . . . . . . . . . . 32 4.10 Varia´vel massa l´ıquida com classe 1 . . . . . . . . . . . . . . . . . . . 33 4.11 Varia´vel valor facturado por mˆes . . . . . . . . . . . . . . . . . . . . . 35 4.12 Varia´vel valor facturado com classe 0 . . . . . . . . . . . . . . . . . . 35 4.13 Varia´vel valor facturado com classe 1 . . . . . . . . . . . . . . . . . . 35 4.14 Varia´vel r´acio por mˆes . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.15 Varia´vel r´acio com classe 0 . . . . . . . . . . . . . . . . . . . . . . . . 37 4.16 Varia´vel r´acio com classe 1 . . . . . . . . . . . . . . . . . . . . . . . . 38 4.17 Varia´vel m´edia do r´acio por mˆes . . . . . . . . . . . . . . . . . . . . . 40 4.18 Varia´vel m´edia do r´acio com classe 0 . . . . . . . . . . . . . . . . . . 40 4.19 Varia´vel m´edia do r´acio com classe 1 . . . . . . . . . . . . . . . . . . 41 4.20 Varia´vel desvio padr˜ao do r´acio por mˆes . . . . . . . . . . . . . . . . 43 4.21 Varia´vel desvio padr˜ao do r´acio com classe 0 . . . . . . . . . . . . . . 43 4.22 Varia´vel desvio padr˜ao do r´acio com classe 1 . . . . . . . . . . . . . . 43 4.23 Varia´vel distaˆncia normalizada por mˆes . . . . . . . . . . . . . . . . . 45 4.24 Varia´vel distaˆncia normalizada com classe 0 . . . . . . . . . . . . . . 45 4.25 Varia´vel distaˆncia normalizada com classe 1 . . . . . . . . . . . . . . 46 5.1 Matriz de custos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 vii Lista de Figuras 1.1 Produtos disponibilizados pelo INE relativamente a`s transac¸co˜es de com´ercio externo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1 Processo de funcionamento dos m´etodos supervisionados . . . . . . . 8 2.2 Metodologia de Fayyad . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.3 Metodologia CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.4 Metodologia SEMMA . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 ´ 2.5 Arvore de decis˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.6 Funcionamento neuronal . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.7 Estrutura de rede neuronal . . . . . . . . . . . . . . . . . . . . . . . . 15 2.8 Funcionamento de redes neuronais . . . . . . . . . . . . . . . . . . . . 16 2.9 Distaˆncias em clusters . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.10 Clustering versus classifica¸ca˜o . . . . . . . . . . . . . . . . . . . . . . 18 2.11 Problem´atica da raridade . . . . . . . . . . . . . . . . . . . . . . . . . 21 4.1 Diagrama da an´alise explorato´ria . . . . . . . . . . . . . . . . . . . . 27 4.2 Distribui¸ca˜o da massa l´ıquida . . . . . . . . . . . . . . . . . . . . . . 31 4.3 Detalhe da distribui¸c˜ao da massa l´ıquida . . . . . . . . . . . . . . . . 31 4.4 Distribui¸ca˜o do valor facturado . . . . . . . . . . . . . . . . . . . . . 34 4.5 Detalhe da distribui¸c˜ao do valor facturado . . . . . . . . . . . . . . . 34 4.6 Distribui¸ca˜o do ra´cio . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.7 Detalhe da distribui¸c˜ao do r´acio . . . . . . . . . . . . . . . . . . . . . 37 4.8 Distribui¸ca˜o da m´edia do ra´cio . . . . . . . . . . . . . . . . . . . . . . 39 4.9 Detalhe da distribui¸c˜ao da m´edia do r´acio . . . . . . . . . . . . . . . 39 4.10 Distribui¸ca˜o do desvio padr˜ao do r´acio . . . . . . . . . . . . . . . . . 42 4.11 Detalhe da distribui¸ca˜o do desvio padra˜o do ra´cio . . . . . . . . . . . 42 4.12 Distribui¸ca˜o do distaˆncia normalizada . . . . . . . . . . . . . . . . . . 44 5.1 Abordagem ao estudo . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.2 Diagrama do problema inicial . . . . . . . . . . . . . . . . . . . . . . 51 5.3 Curva ROC da rede neuronal no problema inicial . . . . . . . . . . . 51 5.4 Curva ROC da ´arvore de decisa˜o no problema inicial . . . . . . . . . 52 5.5 Gra´fico de clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.6 Diagrama de manipula¸ca˜o de custos em rede neuronais . . . . . . . . 54 viii 5.7 Diagrama de manipula¸ca˜o de custos em a´rvores de decisa˜o . . . . . . 55 5.8 Detalhes da configura¸ca˜o da matriz de custos e probabilidades . . . . 55 5.9 Curva ROC de rede neuronal com custos e sem probabilidades . . . . 56 5.10 Curva ROC de a´rvore de decis˜ao com custos e sem probabilidades . . 56 5.11 Curva ROC de rede neuronal com custos e probabilidades iguais . . . 57 5.12 Curva ROC de a´rvore de decis˜ao com custos e probabilidades iguais . 57 5.13 Curva ROC de rede neuronal com custos e probabilidades proporcionais 57 5.14 Curva ROC de a´rvore de decisa˜o com custos e probabilidades propor- cionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.15 Curva ROC de rede neuronal com custos e probabilidades adaptadas 58 5.16 Curva ROC de ´arvore de decisa˜o com custos e probabilidades adaptadas 58 5.17 Diagrama de oversampling em rede neuronais . . . . . . . . . . . . . 59 5.18 Diagrama de oversampling em ´arvores de decisa˜o . . . . . . . . . . . 59 5.19 Dados e ra´cios de Janeiro e Fevereiro 98 . . . . . . . . . . . . . . . . 60 5.20 Curva ROC de rede neuronal com oversampling 2X . . . . . . . . . . 60 5.21 Curva ROC de a´rvores de decis˜ao com oversampling 2X . . . . . . . . 61 5.22 Curva ROC de rede neuronal com oversampling 10X . . . . . . . . . 61 5.23 Curva ROC de a´rvores de decis˜ao com oversampling 10X . . . . . . . 61 5.24 Curva ROC de rede neuronal com oversampling 100X . . . . . . . . . 61 5.25 Curva ROC de a´rvores de decis˜ao com oversampling 100X . . . . . . 62 5.26 Curva ROC de rede neuronal com oversampling r´acioX . . . . . . . . 62 5.27 Curva ROC de a´rvores de decis˜ao com oversampling r´acioX . . . . . 62 5.28 Diagrama de undersampling em rede neuronais . . . . . . . . . . . . . 63 5.29 Diagrama de undersampling em ´arvores de decisa˜o . . . . . . . . . . . 63 5.30 Curva ROC de redes neuronais com undersampling . . . . . . . . . . 64 5.31 Curva ROC de a´rvores de decis˜ao com undersampling . . . . . . . . . 64 5.32 Diagrama de combina¸c˜ao de t´ecnicas em rede neuronais . . . . . . . . 65 5.33 Diagrama de combina¸c˜ao de t´ecnicas em ´arvores de decisa˜o . . . . . . 65 5.34 Curva ROC de redes neuronais com undersampling e custos . . . . . 66 5.35 Curva ROC de redes neuronais com oversampling e custos . . . . . . 66 5.36 Curva ROC de a´rvores de decis˜ao com undersampling e custos . . . . 66 5.37 Curva ROC de a´rvores de decis˜ao com oversampling e custos . . . . . 67 A.1 Ecr˜a de Input Data Source . . . . . . . . . . . . . . . . . . . . . . . . 71 A.2 Diagrama do problema inicial - Fevereiro . . . . . . . . . . . . . . . . 75 A.3 Diagrama do problema inicial - global . . . . . . . . . . . . . . . . . . 75 A.4 Diagrama de manipula¸ca˜o de custos em rede neuronais - Fevereiro . . 76 A.5 Diagrama de manipula¸ca˜o de custos em ´arvores de decis˜ao - Fevereiro 76 A.6 Diagrama de manipula¸ca˜o de custos em rede neuronais - global . . . . 77 A.7 Diagrama de manipula¸ca˜o de custos em ´arvores de decis˜ao - global . . 77 A.8 Diagrama de oversampling em rede neuronais - Fevereiro . . . . . . . 78 A.9 Diagrama de oversampling em ´arvores de decisa˜o - Fevereiro . . . . . 78 ix A.10 Diagrama de oversampling em rede neuronais - global . . . . . . . . . 79 A.11 Diagrama de oversampling em ´arvores de decisa˜o - global . . . . . . . 79 A.12 Diagrama de combina¸ca˜o de t´ecnicas em rede neuronais - Fevereiro . 80 A.13 Diagrama de combina¸ca˜o de t´ecnicas em a´rvores de decisa˜o - Fevereiro 80 A.14 Diagrama de combina¸ca˜o de t´ecnicas em rede neuronais - global . . . 81 A.15 Diagrama de combina¸ca˜o de t´ecnicas em a´rvores de decisa˜o - global . 81 A.16 Curva ROC de manipula¸ca˜o de custos e sem probabilidades - Fevereiro 82 A.17 Curva ROC de manipula¸ca˜o de custos e sem probabilidades - global . 83 A.18 Curva ROC de manipula¸ca˜o de custos e probabilidades iguais - Fevereiro 83 A.19 Curva ROC de manipula¸ca˜o de custos e probabilidades iguais - global 84 A.20 Curva ROC de manipula¸ca˜o de custos e probabilidades proporcionais - Fevereiro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 A.21 Curva ROC de manipula¸ca˜o de custos e probabilidades proporcionais - global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 A.22 Curva ROC de manipula¸ca˜o de custos e probabilidades adaptadas - Fevereiro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 A.23 Curva ROC de manipula¸c˜ao de custos e probabilidade adaptada - global 86 A.24 Curva ROC de oversampling 2X - Fevereiro . . . . . . . . . . . . . . 87 A.25 Curva ROC de oversampling 2X - global . . . . . . . . . . . . . . . . 87 A.26 Curva ROC de oversampling 10X - Fevereiro . . . . . . . . . . . . . . 87 A.27 Curva ROC de oversampling 10X - global . . . . . . . . . . . . . . . 88 A.28 Curva ROC de oversampling 100X - Fevereiro . . . . . . . . . . . . . 88 A.29 Curva ROC de oversampling 100X - global . . . . . . . . . . . . . . . 89 A.30 Curva ROC de oversampling r´acioX - Fevereiro . . . . . . . . . . . . 89 A.31 Curva ROC de oversampling r´acioX - global . . . . . . . . . . . . . . 90 A.32 Curva ROC de undersampling - Fevereiro . . . . . . . . . . . . . . . . 90 A.33 Curva ROC de undersampling - global . . . . . . . . . . . . . . . . . 91 A.34 Curva ROC de undersampling e custos - Fevereiro . . . . . . . . . . . 91 A.35 Curva ROC de undersampling e custos - global . . . . . . . . . . . . 92 A.36 Curva ROC de oversampling e custos - Fevereiro . . . . . . . . . . . . 93 A.37 Curva ROC de oversampling e custos - global . . . . . . . . . . . . . 93 A.38 Ecra˜ de configura¸co˜es em a´rvores de decis˜ao . . . . . . . . . . . . . . 94 A.39 Ecra˜ de configura¸co˜es em redes neuronais . . . . . . . . . . . . . . . . 94 A.40 Ecra˜ de configura¸co˜es em partic¸˜ao de dados . . . . . . . . . . . . . . 95 x
Description: