ebook img

Evaluación y mejora de algoritmos bioinformáticos con base estadística para la detección de ... PDF

108 Pages·2016·2.14 MB·Spanish
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Evaluación y mejora de algoritmos bioinformáticos con base estadística para la detección de ...

Trabajo Fin de M(cid:19)aster Evaluacio(cid:19)n y mejora de algoritmos bioinform(cid:19)aticos con base estad(cid:19)(cid:16)stica para la detecci(cid:19)on de macro-indels Jim(cid:19)enez Otero, Norman M(cid:19)aster en T(cid:19)ecnicas Estad(cid:19)(cid:16)sticas Curso 2015-2016 ii iii Propuesta de Trabajo Fin de M(cid:19)aster T(cid:19)(cid:16)tulo en galego: Avaliaci(cid:19)on e mellora dos algoritmos bioinform(cid:19)aticos con base estat(cid:19)(cid:16)stica para a detecci(cid:19)on de macro-indels T(cid:19)(cid:16)tulo en espan~ol:Evaluaci(cid:19)onymejoradealgoritmosbioinform(cid:19)aticosconbaseestad(cid:19)(cid:16)stica para la detecci(cid:19)on de macro-indels English title:Evaluationandimprovementofstatistically-basedbioinformaticsalgorithms for the detection of macro-indels Modalidad: Modalidad B Autor: Jim(cid:19)enez Otero, Norman, Universidad de Vigo Director: de Un~a A(cid:19)lvarez, Jacobo, Universidad de Vigo Tutora: Gonz(cid:19)alez Castro, Lorena, Gradiant Breve resumen del trabajo: La secuenciaci(cid:19)on del ADN ha sufrido un desarrollo sin precedentes con la introducci(cid:19)on en los u(cid:19)ltimos an~os de las tecnolog(cid:19)(cid:16)as de secuenciacio(cid:19)nmasiva(Next-Generationsequencing,NGS),quegraciasasualtorendimientoest(cid:19)anpotenciandoeldesarrollodenuevas aplicacionesypruebasbiol(cid:19)ogicas.Desdelaaparici(cid:19)ondelNGS,sehanutilizadodiferentesalgoritmosdemachinelearningparamodelar losperfilesgen(cid:19)eticos,aplic(cid:19)andoseendiversosestudiosqueanalizanlaestructuradelasvariacionesdelgenomahumanoytratande encontrarrelacionesestad(cid:19)(cid:16)sticasconlasenfermedades.ElproyectoGRIDD(desarrolladoenGradiantconlacolaboraci(cid:19)ondelCHUS) tienecomoobjetivoeldesarrollodeunalgoritmoquepermitaladetecci(cid:19)onautom(cid:19)aticademacroinsercionesymacrodeleciones(un tipoespec(cid:19)(cid:16)ficodevariantesestructuralesdelgenoma)quepermitir(cid:19)aasistiralosprofesionalessanitariosyacelerareldiagn(cid:19)osticode enfermedadesneurometab(cid:19)olicascong(cid:19)enitas.Pararealizarelan(cid:19)alisisestad(cid:19)(cid:16)sticodelosdatosseest(cid:19)anutilizandoactualmentet(cid:19)ecnicas cla(cid:19)sicasdereconocimientodepatrones,comoelan(cid:19)alisisdecomponentesprincipales(PCA)ylasm(cid:19)aquinasdevectoressoporte(SVMs). Entrelosobjetivosaalcanzardentrodeestapr(cid:19)acticaseencuentraneldeevaluardiferentesalgoritmosyherramientasexistentes(como porejemploCONTRA[1]),as(cid:19)(cid:16)comolaaplicaci(cid:19)ondet(cid:19)ecnicasestad(cid:19)(cid:16)sticasquecontribuyanamejorarlosresultadosdedetecci(cid:19)ondel algoritmoqueest(cid:19)asiendodesarrolladodentrodelmarcodeesteproyecto.Porello,esdeseablequeelalumnoseacapazdecomprender algoritmosimplementadosendiferenteslenguajesdeprogramaci(cid:19)on(comoPythonoC/C++)ydemanejarherramientasestad(cid:19)(cid:16)sticas comoRoMatlab. Recomendaciones: Otras observaciones: Gradiant se reserva el derecho a participar en el proceso selectivo del estudiante. iv v Don de Un~a A(cid:19)lvarez, Jacobo, Catedr(cid:19)atico de Universidad de la Universidad de Vigo, y don~a Gonz(cid:19)alez Castro, Lorena, Investigadora, Ingeniera de Telecomunicaciones de Gradiant, informan que el Trabajo Fin de M(cid:19)aster titulado Evaluaci(cid:19)on y mejora de algoritmos bioinform(cid:19)aticos con base estad(cid:19)(cid:16)stica para la detecci(cid:19)on de macro-indels fuerealizadobajosudirecci(cid:19)onpordonJim(cid:19)enezOtero,NormanparaelM(cid:19)asterenT(cid:19)ecnicasEstad(cid:19)(cid:16)sticas. Estimando que el trabajo est(cid:19)a terminado, dan su conformidad para su presentaci(cid:19)on y defensa ante un tribunal. En Vigo, a 29 de Junio de 2016. El director: Don de Un~a A(cid:19)lvarez, Jacobo La tutora: Don~a Gonz(cid:19)alez Castro, Lorena El autor: Don Jim(cid:19)enez Otero, Norman vi Agradecimientos Quiero agradecer este trabajo, especialmente, a mi tutor Jacobo, que, adem(cid:19)as, de despertar en m(cid:19)(cid:16) el inter(cid:19)es por las matem(cid:19)aticas en mi u(cid:19)ltimo an~o de carrera en biolog(cid:19)(cid:16)a y motivarme para estudiar este master, me ha apoyado y ayudado para poder realizar este trabajo, ya que sin su consejo y cono- cimiento no hubiera sido posible su realizaci(cid:19)on. Tambi(cid:19)enquieroagradeceraLorenayaHelenasuafecto,apoyoyrecibimiento,durantemiestancia en Gradiant, y quiero agradecerles haberme dado la oportunidad de poder trabajar con ellas. Sin su ayuda no habr(cid:19)(cid:16)a sido posible este trabajo. Tambi(cid:19)en quiero agradecer a mis padres y en especial a Paula el apoyo y (cid:19)animos que me ha dado para durante estos u(cid:19)ltimos an~os. vii viii (cid:19) Indice general Resumen XI Prefacio XIII 1. Introducci(cid:19)on 1 2. Secuenciaci(cid:19)on de nueva generaci(cid:19)on (NGS) 5 2.1. Forma de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2. Errores de secuenciaci(cid:19)on y longitud de los reads . . . . . . . . . . . . . . . . . . . . . . . 10 2.3. Sesgo GC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3. Modelo 13 3.1. Modelo: R constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.2. Par(cid:19)ametro general del experimento (cid:21) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.3. Contraste basado en el modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.3.1. Lema Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.3.2. Comparaciones mu(cid:19)ltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.3.3. Contraste aplicado a una regi(cid:19)on real . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.4. Simuladores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.4.1. Simulaci(cid:19)on alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.5. Intervalo de con(cid:12)anza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.6. Simular alteraciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.6.1. Deleci(cid:19)on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.6.2. Duplicaci(cid:19)on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.6.3. Varianza en las alteraciones y comparaci(cid:19)on con ejemplos reales . . . . . . . . . . 31 3.7. Validez del contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.8. Estad(cid:19)(cid:16)stico resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4. Modelo con R aleatorio 45 4.1. Modelo: R aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.1.1. Longitud de los reads R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.2. Simuladores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.3. Intervalo de con(cid:12)anza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.4. Contraste basado en el modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 5. Enfoque funcional 55 5.1. Detecci(cid:19)on de una regi(cid:19)on alterada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 ix x (cid:19)INDICE GENERAL 6. Algoritmo CONTRA 61 6.1. CONTRA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 6.2. Pasos detallados del algoritmo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 6.2.1. Correcci(cid:19)on del taman~o de la librer(cid:19)(cid:16)a . . . . . . . . . . . . . . . . . . . . . . . . . 64 6.2.2. Contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 6.3. Enfoque heur(cid:19)(cid:16)stico para la predicci(cid:19)on de grandes CNV . . . . . . . . . . . . . . . . . . . 67 7. Conclusi(cid:19)on 69 A. C(cid:19)odigo de R de los scripts utilizados y datos 71 Bibliograf(cid:19)(cid:16)a 93

Description:
particular, se aplica un contraste clásico de Neyman-Pearson para El contraste de la cobertura de las regiones se encuentra en el script contraste. y alternativa simples, aplicar el lemma de Neyman-Pearson al igual que.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.