Trabajo Fin de M(cid:19)aster Evaluacio(cid:19)n y mejora de algoritmos bioinform(cid:19)aticos con base estad(cid:19)(cid:16)stica para la detecci(cid:19)on de macro-indels Jim(cid:19)enez Otero, Norman M(cid:19)aster en T(cid:19)ecnicas Estad(cid:19)(cid:16)sticas Curso 2015-2016 ii iii Propuesta de Trabajo Fin de M(cid:19)aster T(cid:19)(cid:16)tulo en galego: Avaliaci(cid:19)on e mellora dos algoritmos bioinform(cid:19)aticos con base estat(cid:19)(cid:16)stica para a detecci(cid:19)on de macro-indels T(cid:19)(cid:16)tulo en espan~ol:Evaluaci(cid:19)onymejoradealgoritmosbioinform(cid:19)aticosconbaseestad(cid:19)(cid:16)stica para la detecci(cid:19)on de macro-indels English title:Evaluationandimprovementofstatistically-basedbioinformaticsalgorithms for the detection of macro-indels Modalidad: Modalidad B Autor: Jim(cid:19)enez Otero, Norman, Universidad de Vigo Director: de Un~a A(cid:19)lvarez, Jacobo, Universidad de Vigo Tutora: Gonz(cid:19)alez Castro, Lorena, Gradiant Breve resumen del trabajo: La secuenciaci(cid:19)on del ADN ha sufrido un desarrollo sin precedentes con la introducci(cid:19)on en los u(cid:19)ltimos an~os de las tecnolog(cid:19)(cid:16)as de secuenciacio(cid:19)nmasiva(Next-Generationsequencing,NGS),quegraciasasualtorendimientoest(cid:19)anpotenciandoeldesarrollodenuevas aplicacionesypruebasbiol(cid:19)ogicas.Desdelaaparici(cid:19)ondelNGS,sehanutilizadodiferentesalgoritmosdemachinelearningparamodelar losperfilesgen(cid:19)eticos,aplic(cid:19)andoseendiversosestudiosqueanalizanlaestructuradelasvariacionesdelgenomahumanoytratande encontrarrelacionesestad(cid:19)(cid:16)sticasconlasenfermedades.ElproyectoGRIDD(desarrolladoenGradiantconlacolaboraci(cid:19)ondelCHUS) tienecomoobjetivoeldesarrollodeunalgoritmoquepermitaladetecci(cid:19)onautom(cid:19)aticademacroinsercionesymacrodeleciones(un tipoespec(cid:19)(cid:16)ficodevariantesestructuralesdelgenoma)quepermitir(cid:19)aasistiralosprofesionalessanitariosyacelerareldiagn(cid:19)osticode enfermedadesneurometab(cid:19)olicascong(cid:19)enitas.Pararealizarelan(cid:19)alisisestad(cid:19)(cid:16)sticodelosdatosseest(cid:19)anutilizandoactualmentet(cid:19)ecnicas cla(cid:19)sicasdereconocimientodepatrones,comoelan(cid:19)alisisdecomponentesprincipales(PCA)ylasm(cid:19)aquinasdevectoressoporte(SVMs). Entrelosobjetivosaalcanzardentrodeestapr(cid:19)acticaseencuentraneldeevaluardiferentesalgoritmosyherramientasexistentes(como porejemploCONTRA[1]),as(cid:19)(cid:16)comolaaplicaci(cid:19)ondet(cid:19)ecnicasestad(cid:19)(cid:16)sticasquecontribuyanamejorarlosresultadosdedetecci(cid:19)ondel algoritmoqueest(cid:19)asiendodesarrolladodentrodelmarcodeesteproyecto.Porello,esdeseablequeelalumnoseacapazdecomprender algoritmosimplementadosendiferenteslenguajesdeprogramaci(cid:19)on(comoPythonoC/C++)ydemanejarherramientasestad(cid:19)(cid:16)sticas comoRoMatlab. Recomendaciones: Otras observaciones: Gradiant se reserva el derecho a participar en el proceso selectivo del estudiante. iv v Don de Un~a A(cid:19)lvarez, Jacobo, Catedr(cid:19)atico de Universidad de la Universidad de Vigo, y don~a Gonz(cid:19)alez Castro, Lorena, Investigadora, Ingeniera de Telecomunicaciones de Gradiant, informan que el Trabajo Fin de M(cid:19)aster titulado Evaluaci(cid:19)on y mejora de algoritmos bioinform(cid:19)aticos con base estad(cid:19)(cid:16)stica para la detecci(cid:19)on de macro-indels fuerealizadobajosudirecci(cid:19)onpordonJim(cid:19)enezOtero,NormanparaelM(cid:19)asterenT(cid:19)ecnicasEstad(cid:19)(cid:16)sticas. Estimando que el trabajo est(cid:19)a terminado, dan su conformidad para su presentaci(cid:19)on y defensa ante un tribunal. En Vigo, a 29 de Junio de 2016. El director: Don de Un~a A(cid:19)lvarez, Jacobo La tutora: Don~a Gonz(cid:19)alez Castro, Lorena El autor: Don Jim(cid:19)enez Otero, Norman vi Agradecimientos Quiero agradecer este trabajo, especialmente, a mi tutor Jacobo, que, adem(cid:19)as, de despertar en m(cid:19)(cid:16) el inter(cid:19)es por las matem(cid:19)aticas en mi u(cid:19)ltimo an~o de carrera en biolog(cid:19)(cid:16)a y motivarme para estudiar este master, me ha apoyado y ayudado para poder realizar este trabajo, ya que sin su consejo y cono- cimiento no hubiera sido posible su realizaci(cid:19)on. Tambi(cid:19)enquieroagradeceraLorenayaHelenasuafecto,apoyoyrecibimiento,durantemiestancia en Gradiant, y quiero agradecerles haberme dado la oportunidad de poder trabajar con ellas. Sin su ayuda no habr(cid:19)(cid:16)a sido posible este trabajo. Tambi(cid:19)en quiero agradecer a mis padres y en especial a Paula el apoyo y (cid:19)animos que me ha dado para durante estos u(cid:19)ltimos an~os. vii viii (cid:19) Indice general Resumen XI Prefacio XIII 1. Introducci(cid:19)on 1 2. Secuenciaci(cid:19)on de nueva generaci(cid:19)on (NGS) 5 2.1. Forma de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2. Errores de secuenciaci(cid:19)on y longitud de los reads . . . . . . . . . . . . . . . . . . . . . . . 10 2.3. Sesgo GC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3. Modelo 13 3.1. Modelo: R constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.2. Par(cid:19)ametro general del experimento (cid:21) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.3. Contraste basado en el modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.3.1. Lema Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.3.2. Comparaciones mu(cid:19)ltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.3.3. Contraste aplicado a una regi(cid:19)on real . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.4. Simuladores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.4.1. Simulaci(cid:19)on alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.5. Intervalo de con(cid:12)anza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.6. Simular alteraciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.6.1. Deleci(cid:19)on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.6.2. Duplicaci(cid:19)on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.6.3. Varianza en las alteraciones y comparaci(cid:19)on con ejemplos reales . . . . . . . . . . 31 3.7. Validez del contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.8. Estad(cid:19)(cid:16)stico resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4. Modelo con R aleatorio 45 4.1. Modelo: R aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.1.1. Longitud de los reads R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.2. Simuladores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.3. Intervalo de con(cid:12)anza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.4. Contraste basado en el modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 5. Enfoque funcional 55 5.1. Detecci(cid:19)on de una regi(cid:19)on alterada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 ix x (cid:19)INDICE GENERAL 6. Algoritmo CONTRA 61 6.1. CONTRA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 6.2. Pasos detallados del algoritmo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 6.2.1. Correcci(cid:19)on del taman~o de la librer(cid:19)(cid:16)a . . . . . . . . . . . . . . . . . . . . . . . . . 64 6.2.2. Contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 6.3. Enfoque heur(cid:19)(cid:16)stico para la predicci(cid:19)on de grandes CNV . . . . . . . . . . . . . . . . . . . 67 7. Conclusi(cid:19)on 69 A. C(cid:19)odigo de R de los scripts utilizados y datos 71 Bibliograf(cid:19)(cid:16)a 93
Description: