ebook img

Algoritmos e técnicas de validação em agrupamento de dados multi-representados, agrupamento ... PDF

222 Pages·2013·3.35 MB·Portuguese
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Algoritmos e técnicas de validação em agrupamento de dados multi-representados, agrupamento ...

Algoritmos e técnicas de validação em agrupamento de dados multi-representados, agrupamento possibilístico e bi-agrupamento Danilo Horta SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP Data de Depósito: Assinatura:________________________ ______ Algoritmos e técnicas de validação em agrupamento de dados multi-representados, agrupamento possibilístico e bi-agrupamento Danilo Horta Orientador: Prof. Dr. Ricardo José Gabrielli Barreto Campello Tese apresentada ao Instituto de Ciências Matemáticas e de Computação - ICMC-USP, como parte dos requisitos para obtenção do título de Doutor em Ciências - Ciências de Computação e Matemática Computacional. VERSÃO REVISADA. USP – São Carlos Novembro de 2013 Ficha catalográfica elaborada pela Biblioteca Prof. Achille Bassi e Seção Técnica de Informática, ICMC/USP, com os dados fornecidos pelo(a) autor(a) Horta, Danilo HH881a Algoritmos e técnicas de validação em agrupamento a de dados multi-representados agrupamento possibilístico e bi-agrupamento / Danilo Horta; orientador Ricardo José Gabrielli Barreto Campello. -- São Carlos, 2013. 202 p. Tese (Doutorado - Programa de Pós-Graduação em Ciências de Computação e Matemática Computacional) -- Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, 2013. 1. Agrupamento de dados. I. Campello, Ricardo José Gabrielli Barreto, orient. II. Título. Aos meus pais pelo apoio incansável ao longo do período de elaboração deste trabalho. Agradecimentos Aoprof. RicardoCampellopelocomprometimentoepelaorientaçãoacadêmica. Aoscolegaseamigosdelaboratóriopelasconversasepeloincentivo. ÀSolangeRezendepeloapoioesabedoria. AgradecimentosàFundaçãodeAmparoàPesquisadoEstadodeSãoPaulo(FAPESP)eao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) pelo contínuo apoio pormeiodeauxílioscientífico-financeiros. Resumo Existembasesparaasquaisosdadossãonaturalmenterepresentadospormaisdeumavisão. Porexemplo,imagenspodemserdescritasporatributosdecores,texturaeforma. Proteínaspo- dem ser caracterizadas pela sequência de aminoácidos e pela representação tridimensional. A unificaçãodasdiferentesvisõesdeumabasededadospodeserproblemáticaporqueelaspodem não ser comparáveis entresi ou podem apresentar diferentes graus de importância. Esses graus de importância podem, inclusive, se manifestar de maneira local, de acordo com a subestrutura dos dados em questão. Isso motivou o surgimento de algoritmos de agrupamento de dados ca- pazesdelidarcombasesmulti-representadas(i.e.,quepossuemmaisdeumavisãodosdados), como o algoritmo SCAD. Esse algoritmo se mostrou promissor em experimentos relatados na literatura,maspossuiproblemascríticosidentificadosnestetrabalhoqueoimpedemdefuncio- nar em determinados cenários. Tais problemas foram solucionados por meio da proposição de uma nova versão do algoritmo, denominada ASCAD, fundamentada em provas formais sobre a sua convergência. Foram desenvolvidas versões relacionais do algoritmo ASCAD, capazes de lidar com bases descritas apenas por relações de proximidade entre os objetos. Foi desen- volvido também um índice de validação interna e relativa de agrupamento voltado para dados multi-representados. A avaliação de agrupamento possibilístico e de bi-agrupamento por meio da comparação entre solução encontrada e solução de referência (validação externa) também foi explorada. Algoritmos de bi-agrupamento têm ganhado um interesse crescente da comunidade de análise de expressão gênica. No entanto, pouco se conhece do comportamento e das propriedades das medidas voltadas para validação externa de bi-agrupamento, o que motivou uma análise teórica e empírica dessas medidas. Essa análise mostrou que a maioria das medidas de bi- agrupamentopossuiproblemascríticosedestacouduasdelascomosendoasmaispromissoras. Foram inclusas nessa análise três medidas de agrupamento particional não exclusivo, cujo uso na comparação de bi-agrupamentos é possível por meio de uma nova abordagem de avaliação debi-agrupamentopropostanestatese. Agrupamento particional não exclusivo faz parte de um domínio mais geral de soluções, i.e., o domínio dos agrupamentos possibilísticos. Observou-se algumas falhas conceituais im- portantes das medidas de agrupamento possibilístico, o que motivou o desenvolvimento de no- vas medidas ede uma análise empírica e conceitual envolvendo34 medidas. Umadas medidas propostassedestacoucomosendoaúnicaqueapresentouavaliaçõesimparciaiscomrelaçãoao númerodegrupos,ovalormáximodesimilaridadeaocompararasoluçãoidealencontradacom a solução de referência e avaliações sensíveis às diferenças das soluções em todos os cenários considerados. vi

Description:
PROCLUS Projected Clustering (Aggarwal et al., 1999) . et al., 2001; Theodoridis e Koutroumbas, 2006) ou com base em algum tipo de coe-.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.