ebook img

Tecnologías para el procesamiento y analítica de datos en big data Francisco Herrera PDF

166 Pages·2015·9.56 MB·Spanish
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Tecnologías para el procesamiento y analítica de datos en big data Francisco Herrera

Tecnologías para el pprroocceessaammiieennttoo yy aannaallííttiiccaa ddee datos en big data Francisco Herrera Dpto. Ciencias de la Computación e I.A. Universidad de Granada [email protected] Grupo de investigación SCI2S hhttttpp::////ssccii22ss.uuggrr.eess Bigg Data NNuueessttrroo mmuunnddoo ggiirraa eenn ttoorrnnoo aa llooss ddaattooss Ciencia  Bases de datos de astronomía, genómica,  datos medio-ambientales, datos de transporte, … Ciencias Sociales y Humanidades  LLiibbrrooss eessccaanneeaaddooss, ddooccuummeennttooss hhiissttóórriiccooss, ddaattooss ssoocciiaalleess, …  Negocio y Comercio  Ventas de corpporaciones, transacciones de mercados,  censos, tráfico de aerolíneas, … Entretenimiento y Ocio  IImmáággeenneess eenn iinntteerrnneett, ppeellííccuullaass, ffiicchheerrooss MMPP33, …  Medicina  Datos de ppacientes,, datos de escaner,, radioggrafías …  Industria, Energía, …  Sensores, …  2 Bigg Data BBiigg DDaattaa eenn 33 VV’ss VVoolluummeenn BBiigg DDDDaaaattttaaaa VVaarriieeddaadd VVeelloocciiddaadd Doug Laney, Gartner 2001 3 Bigg Data: Cronologgía Una década: 2001-2010 2001 3V’s Gartner Doug Laney 2010 Big 2004 MapReduce RDD - Spark Google DDaattaa UU BBeerrcckkeelleeyy 2010-2015: Jeffrey Dean Matei Zaharia Big Data AAnnaallyyttiiccss 2008 Aplicaciones Hadoop YYaahhoooo!! Nuevas Doug Cutting Tecnologías 4 Bigg Data: Googgle Flu Aplicación de Google - 2009 GGooooggllee FFlluu DDeetteecctt ppaannddeemmiicc rriisskk iinn rreeaall ttiimmee 2009,, nuevo virus ggrippe A: ceppa H1N1  Sanidad pública temía una pandemia similar a la  de la gripe española de 1918 550000 miillllones dde affecttaddos  Decenas de millones de fallecidos  NNoo hhaayy vvaaccuunnaa,, hhaayy qquuee rraalleennttiizzaarr llaa pprrooppaaggaacciióónn  Solución:  Los centros de control y prevención de enfermedades  (CDC) recopilan datos de los méédicos ¡Se consigue un panorama de la pandemia con un  desfase, retraso de 2 semanas! Bigg Data: Googgle Flu GGooooggllee FFlluu DDeetteecctt ppaannddeemmiicc rriisskk iinn rreeaall ttiimmee “GGooooggllee ppuueeddee pprreeddeecciirr llaa pprrooppaaggaacciióónn ddee llaa ggrriippee ((…)) analizando lo que la gente busca en internet” + dde 33.000000MM dde bbúúsqueddas a ddiiariio J. Ginsberg, M.H. Mohebbi, R.S. Patel, L. Brammer, M.S. Smolinski, L. Brilliant. DDettecttiing iinfflluenza epiiddemiics usiing searchh engiine query ddatta. Nature 475 (2009) 1012-1014 Bigg Data: Googgle Flu GGooooggllee FFlluu DDeetteecctt ppaannddeemmiicc rriisskk iinn rreeaall ttiimmee “Google puede predecir la propagación de la gripe (…) aannaalliizzaannddoo lloo qquuee llaa ggeennttee bbuussccaa eenn iinntteerrnneett” Google utilizó:  5500 MM dde ttéérmiinos dde bbúúsquedda máás uttiilliizaddos  Comparó esta lista con los datos de los CDC sobre  pproppaggación de ggrippe entre 2003 yy 2008 • Identificar a los afectados en base a sus búsquedas • Buscaron correlaciones entre frecuencia de búsquedas dde iinfformaciióón y propagaciióón dde lla griipe en ttiiempo y espacio Bigg Data: Googgle Flu GGooooggllee FFlluu DDeetteecctt ppaannddeemmiicc rriisskk iinn rreeaall ttiimmee Encontraron una combinación de 45 términos de búsqqueda  que al usarse con un modelo matemático presentaba una correlación fuerte entre su predicción y las cifras ooffiicciiaalleess ddee llaa eennffeerrmmeeddaadd Podían decir,, como los CDC,, a dónde se había pproppaggado la gripe pero casi en tiempo real, no una o dos semanas después Con un método basado en Big Data Se ha extendido a 29 países  Bigg Data: Googgle Flu GGooooggllee FFlluu DDeetteecctt ppaannddeemmiicc rriisskk iinn rreeaall ttiimmee J. Ginsberg, M.H. Mohebbi, R.S. Patel, L. Brammer, M.S. Smolinski, L. Brilliant. Detecting influenza epidemics using search engine query data. Nature 475 (2009) 1012-1014 Bigg Data: Googgle Flu GGooooggllee FFlluu DDeetteecctt ppaannddeemmiicc rriisskk iinn rreeaall ttiimmee EEnn 22001133 ssoobbrreeeessttiimmóó llooss nniivveelleess ddee ggrriippee ((xx22 llaa  estimación CDC) La sobreestimación puede deberse a la amplia cobertura  mediática de la gripe que puede modificar comportamientos de búsqueda LLooss mmooddeellooss ssee vvaann aaccttuuaalliizzaannddoo aannuuaallmmeennttee  www.sciencemag.org SCIENCE VOL 343 14 MARCH 2014

Description:
Tecnologías para Big Data: Ecosistema Hadoop .. Pig: Lenguaje para la ejecución de alto nivel de flujo de datos para Twister (Indiana University) Apache Hadoop YARN es el sistema operativo de datos de . Multivariate Logistic . von Neumann introduced the minimax algorithm in 1928.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.