DEPARTAMENTODEARQUITECTURAY TECNOLOG´IADE SISTEMASINFORMA´TICOS FacultaddeInforma´tica UniversidadPolite´cnicadeMadrid TESIS DOCTORAL ARQUITECTURADISTRIBUIDADECONTROL PARASISTEMAS CON CAPACIDADESDE DATAMINING Autor Jose´Mar´ıaPen˜aSa´nchez LicenciadoenInforma´tica Directores ErnestinaMenasalvasRuiz DoctoraenInforma´tica PedrodeMiguelAnasagasti DoctorIngenieroIndustrial An˜o:2001 Atodosaquellosquecreyeronquelaterminar´ıa.... ...as´ıcomoaaquellosquenolohicieron. Aambosdebolamotivacio´nparahaberllegadohastaaqu´ı. Agradecimientos Nuncacre´ıquemefueratandif´ıcilponerenordenmisideasparaescribirestaparte. Larazo´nes quedebomuchascosasatantagentequelasensacio´ndedejarmeaalgunadeestaspersonassin mencionaresenextremoembarazosa. Antesdenada,yparasalvaguardarmedeposiblescr´ıticas, soyconsciente quehabra´ personas quepor undesgraciado despiste no mencionare´, esperoque aquellospuedanperdonarme,...algunavez. Enprimerlugar,megustar´ıaagradeceramispadresyhermanoLuissuapoyoalolargodetanto tiempoyporhaberhechoposiblequemededicaraaloquemegusta,facilita´ndomeelcamino. Miscompan˜erosdecarrera,quealolargodevariosan˜oshemoscompartidotantascosas,leshe deagradecerlomuchoquedeellosheaprendidoysuayudaenmuchasma´socasionesdelasque ellossepuedenllegaraimaginan. MuchasgraciasaAndre´s,Arturo,Borja,Cristian,Sole,Myriam, Alberto,Vicente,Paco,JaviCrespo,Samyotrostantosma´s. Juntoconesta’viejaguardia’otrosmuchosamigosdentrodelaFacultadmehanprestadoayu- daenmuydiferentesfacetas,miprimoAlbertooJuanfransonso´loalgunodeellos,perotambie´n hededarlasgraciasaRojas,Paquito,Lola,Claudio,Nacho,OscarMarba´n,OscarDelgado,Fernan- do,JaviSoriano,Salva,JaviyLunaentreotros. Losantesmisprofesoresyahoramiscompan˜eroshansidotambie´nunapiezafundamentalen mitrabajoduranteestosu´ltimosan˜os. Aellosdebocosastantoprofesionalcomopersonalmente. GraciasaSantiago,Nicola´s,JavieryJulio,yma´srecientementeaAlmudena,Antonio,Mar´ıa, Fer- nando,Fran, Juan,PacoyVictor. Unamencio´nespecialreservopara Covadongaaquienledebo muchascosas. Fueradela´mbitodelaUniversidaddebodarlasgracias amuchosmuybuenosamigos,tanto deaqu´ıcerca: Ton˜o,In˜aki,Nacho,Ali,GemaoQuiquecomodemuchoma´slejos: Aracely,Fazel, SylvainoAlan. Atodosvosotrososhedeagradecereseapoyoincondicionalquemehabe´isdado enlashorasma´sbajas....habe´issidofundamentales. Para el final he querido reservar a mis dos directores de Tesis. A Pedro le debo agradecer la insistenciaconlaquemehaperseguidoparaqueterminaseestetrabajoyco´momehafacilitado laintegracio´nenelpequen˜ogrupoqueformamosenlaasignatura. Poru´ltimoquieroagradecera Ernestina....buenotantascosas. Probablementeellasealaprincipal’culpable’dequealfinalhaya conseguido concluir este trabajo, asimismo le debo a su ejemplar dedicacio´n a su trabajo gran partedemivocacio´nyasuexcepcionalcara´ctermima´ssinceraamistad.Much´ısimasgracias. Jose´Mar´ıaPen˜aSa´nchez Madrid,11deDiciembrede2000 Resumen DataMining oKDDsonte´rminosquedesignanlaste´cnicasdeana´lisisdedatosparalabu´squeda depatronesocultosenlosmismos. Estaste´cnicasseusan sobrebasesdedatosconmillonesde registrosycentenaresomilesdeatributospor registroyconsistenenlaaplicacio´n dediferentes procesosdepreparacio´ndedatos,algoritmosdeana´lisisyte´cnicasdepresentacio´nderesultados. Lasaplicaciones ysistemasnecesariospara larealizacio´n deestastareasenunosplazosrazona- blesrequieren deunuso especialmenteeficientedelosrecursosdisponibles(porejemplo,CPU, memoriaoalmacenamientosecundario). Dentrodeesteentorno,lacomputacio´ndistribuidaposibilitaelrepartodecargacomputacio- nalentrevariosnodos,usandolosrecursoslocales(memoriaydisco)deformaconjunta.Sobreun escenariodeestacionesdetrabajoheteroge´neasydandosoporteatodaslasdiferenteste´cnicas,al- goritmoseimplementacionesaportadasporlosinvestigadoresenDataMining lacomplejidadde estasaplicaciones essuprincipal caracter´ıstica. Esteproblemaseagravacuandovariosusuarios hacenusodelsistemaenparalelo,deformaquevariasconsultassonformuladassimulta´neamente. Comosalidaaestaproblema´ticaesnecesariouncontroldelosrecursosdelosnodos,unaprio- rizacio´ndelastareasdelsistema,unadistribucio´ninteligentedelacargay,enresumen,uncon- junto de decisiones relativas al rendimiento del sistema que se han denominado decisiones de control. Esta tesis propone una solucio´n a la problema´tica de control de los sistemas de distribuidos deDataMining enbaseadoselementos: (i)porunladounaarquitecturadistribuidadecontrol, descritayformalizadadeformagene´ricay(ii)undisen˜odeunsistemadeDataMining distribuido sobredichaarquitectura. Abstract DataMiningandKDDarebothtermsthatdefinedataanalysistechniquesthatareabletofindhid- denpatternsinthedata. Thesetechniquesareusedtoexploredatabaseswithmillionsofrecords andhundredsorthousandsofattributesperrecord. Thesetechniquesgrouptogetherdataprepa- rationprocesses,analysisalgorithmsandresultpresentationissues. Theefficientachievementof thesetasksrequiresapplicationsandsystemswithspeciallyresourcemanagementcapabilities(for instance:CPU,memoryandsecondarymanagement). On thisfield, load balancing and the combination of local and remote resources providedby distributedcomputationtechnologyisaveryimportantfactor. ButtheuseofDataMining tech- niquesrunning onaclusterofindependentworkstationsisanon-trivialproblem. Thedesignof new algorithms and the definitionof new techniques in this field also adds mode complexity of DataMiningsystemsinordertobeabletosupportthemastheyappear.Thiscomplexityincreases whenmultipleuseraccesstothesystemisprovidedinparallel. Asa solution to tame this environment, issues likeresource management, task priority sche- duling,intelligentloadbalancingand,ingeneral,systemperformancecriteriaarenecessary. This kindofissueshavebeencalledcontroldecisions. This Thesis propose a solution of control problems in distributed data mining systems. This solutionsisprovidedby: (i)agenericdistributedcontrolarchitecture, formallydefinedand(ii)a designofadistributeddataminingsystemdefinedoverthisthisarchitecture.
Description: