Tecnologías para el pprroocceessaammiieennttoo yy aannaallííttiiccaa ddee datos en big data Francisco Herrera Dpto. Ciencias de la Computación e I.A. Universidad de Granada [email protected] Grupo de investigación SCI2S hhttttpp::////ssccii22ss.uuggrr.eess Bigg Data NNuueessttrroo mmuunnddoo ggiirraa eenn ttoorrnnoo aa llooss ddaattooss Ciencia Bases de datos de astronomía, genómica, datos medio-ambientales, datos de transporte, … Ciencias Sociales y Humanidades LLiibbrrooss eessccaanneeaaddooss, ddooccuummeennttooss hhiissttóórriiccooss, ddaattooss ssoocciiaalleess, … Negocio y Comercio Ventas de corpporaciones, transacciones de mercados, censos, tráfico de aerolíneas, … Entretenimiento y Ocio IImmáággeenneess eenn iinntteerrnneett, ppeellííccuullaass, ffiicchheerrooss MMPP33, … Medicina Datos de ppacientes,, datos de escaner,, radioggrafías … Industria, Energía, … Sensores, … 2 Bigg Data BBiigg DDaattaa eenn 33 VV’ss VVoolluummeenn BBiigg DDDDaaaattttaaaa VVaarriieeddaadd VVeelloocciiddaadd Doug Laney, Gartner 2001 3 Bigg Data: Cronologgía Una década: 2001-2010 2001 3V’s Gartner Doug Laney 2010 Big 2004 MapReduce RDD - Spark Google DDaattaa UU BBeerrcckkeelleeyy 2010-2015: Jeffrey Dean Matei Zaharia Big Data AAnnaallyyttiiccss 2008 Aplicaciones Hadoop YYaahhoooo!! Nuevas Doug Cutting Tecnologías 4 Bigg Data: Googgle Flu Aplicación de Google - 2009 GGooooggllee FFlluu DDeetteecctt ppaannddeemmiicc rriisskk iinn rreeaall ttiimmee 2009,, nuevo virus ggrippe A: ceppa H1N1 Sanidad pública temía una pandemia similar a la de la gripe española de 1918 550000 miillllones dde affecttaddos Decenas de millones de fallecidos NNoo hhaayy vvaaccuunnaa,, hhaayy qquuee rraalleennttiizzaarr llaa pprrooppaaggaacciióónn Solución: Los centros de control y prevención de enfermedades (CDC) recopilan datos de los méédicos ¡Se consigue un panorama de la pandemia con un desfase, retraso de 2 semanas! Bigg Data: Googgle Flu GGooooggllee FFlluu DDeetteecctt ppaannddeemmiicc rriisskk iinn rreeaall ttiimmee “GGooooggllee ppuueeddee pprreeddeecciirr llaa pprrooppaaggaacciióónn ddee llaa ggrriippee ((…)) analizando lo que la gente busca en internet” + dde 33.000000MM dde bbúúsqueddas a ddiiariio J. Ginsberg, M.H. Mohebbi, R.S. Patel, L. Brammer, M.S. Smolinski, L. Brilliant. DDettecttiing iinfflluenza epiiddemiics usiing searchh engiine query ddatta. Nature 475 (2009) 1012-1014 Bigg Data: Googgle Flu GGooooggllee FFlluu DDeetteecctt ppaannddeemmiicc rriisskk iinn rreeaall ttiimmee “Google puede predecir la propagación de la gripe (…) aannaalliizzaannddoo lloo qquuee llaa ggeennttee bbuussccaa eenn iinntteerrnneett” Google utilizó: 5500 MM dde ttéérmiinos dde bbúúsquedda máás uttiilliizaddos Comparó esta lista con los datos de los CDC sobre pproppaggación de ggrippe entre 2003 yy 2008 • Identificar a los afectados en base a sus búsquedas • Buscaron correlaciones entre frecuencia de búsquedas dde iinfformaciióón y propagaciióón dde lla griipe en ttiiempo y espacio Bigg Data: Googgle Flu GGooooggllee FFlluu DDeetteecctt ppaannddeemmiicc rriisskk iinn rreeaall ttiimmee Encontraron una combinación de 45 términos de búsqqueda que al usarse con un modelo matemático presentaba una correlación fuerte entre su predicción y las cifras ooffiicciiaalleess ddee llaa eennffeerrmmeeddaadd Podían decir,, como los CDC,, a dónde se había pproppaggado la gripe pero casi en tiempo real, no una o dos semanas después Con un método basado en Big Data Se ha extendido a 29 países Bigg Data: Googgle Flu GGooooggllee FFlluu DDeetteecctt ppaannddeemmiicc rriisskk iinn rreeaall ttiimmee J. Ginsberg, M.H. Mohebbi, R.S. Patel, L. Brammer, M.S. Smolinski, L. Brilliant. Detecting influenza epidemics using search engine query data. Nature 475 (2009) 1012-1014 Bigg Data: Googgle Flu GGooooggllee FFlluu DDeetteecctt ppaannddeemmiicc rriisskk iinn rreeaall ttiimmee EEnn 22001133 ssoobbrreeeessttiimmóó llooss nniivveelleess ddee ggrriippee ((xx22 llaa estimación CDC) La sobreestimación puede deberse a la amplia cobertura mediática de la gripe que puede modificar comportamientos de búsqueda LLooss mmooddeellooss ssee vvaann aaccttuuaalliizzaannddoo aannuuaallmmeennttee www.sciencemag.org SCIENCE VOL 343 14 MARCH 2014
Description: