U N L P NIVERSIDAD ACIONAL DE A LATA Facultad de Informática Reconocimiento de gestos dinámicos y su aplicación al lenguaje de señas Directores: Autor: Lic. Laura Lanzarini Lic. Franco Ronchetti Dr. Alejandro Rosete Tesis presentada para obtener el grado de Doctor en Ciencias Informáticas Diciembre 2016 Agradecimientos Quisiera agradecer especialmente a mis directores, Laura y Alejandro, por todo el tra- bajoydisposiciónduranteestetiempo. AFacuQ.,grancompañerodetrabajodelosúltimostiempos. AAyelén,elamordemividaquesiempremeacompañó. Amifamiliayamigosquesiempremeapoyaronduranteestetranscurso. AtodosloschicosdelIII-LIDIqueseofrecieroncomovoluntariosparaconstruirlabase dedatos.ParticularmentegraciasaCésar,Augusto,Germán,Majo,Juli,Ale,Vero,Nicoy Santi. Resumen Elreconocimientoautomáticodegestoshumanosesunproblemamultidisciplinar complejoynoresueltoaúndeformacompleta.Desdelaaparicióndetecnologíasde capturadevideodigitalexistenintentosdereconocergestosdinámicoscondiferentes fines. La incorporación de nuevas tecnologías como sensores de profundidad o cámaras de alta resolución, así como la mayor capacidad de procesamiento de los dispositivosactuales,permiteneldesarrollodenuevastecnologíascapacesdedetectar diferentes movimientos y actuar en tiempo real. A diferencia del reconocimiento de la voz hablada, que lleva más de 40 años de investigación, esta temática es relativamente nueva en el ambiente científico, y evoluciona de forma acelerada a medidaqueaparecennuevosdispositivosasícomonuevosalgoritmosdevisiónpor computador. La captura y reconocimiento de gestos dinámicos permite que sean utilizados en diversas áreas de aplicación como por ejemplo monitoreo de pacientes médi- cos,controlenunentornodevideojuego,navegaciónymanipulacióndeentornos virtuales, traducción de léxicos de la lengua de señas, entre otras aplicaciones de interés. Particularmente la lengua de señas puede entenderse como un problema particular del reconocimientode gestos dinámicos, el cual es sumamente apreciado enlosúltimostiempospordistintasinstituciones,yaquepermiteunaayudadirectaa personashipoacúsicas. Para poder utilizar un sistema de reconocimiento automático de lengua de señas paratraducirlosgestosdeunintérprete,esnecesarioafrontarunaseriedediversas tareas. En primer lugar existen diferentes enfoques dependiendo el dispositivo de sensadoautilizar.Sibienexistendispositivosinvasivoscomoguantesdedatos,en esta Tesis seanalizan sólo dispositivosno invasivosde dos tipos:las cámaras RGB convencionales, y las cámaras de profundidad (con particular interés en los nuevos dispositivosRGB-d).Unavezcapturadoelgestoserequieredediversasetapasde pre-procesamiento para identificar regiones de interés como las manos y rostro del sujeto/intérprete,paraluegoidentificarlasdiferentestrayectoriasdelgestorealizado. Además, particularmente para la lengua de señas existe una variabilidad enorme enlasdiferentesposturasoconfiguracionesquelamanopuedetener,locualhace VI aestadisciplinaunaproblemáticaparticularmentecompleja.Paraafrontarestoes necesariounacorrectageneracióndedescriptorestantoestáticoscomodinámicos. EsteesunodelosejesprincipalesinvestigadosenestaTesis.Además,debidoaque cadaregiónpresentagramáticasdelenguajeespecíficas,serequiereladisposición de una base de datos de la Lengua de Señas Argentina (LSA), inexistente hasta el momento.Enbasealosmotivosmencionadosanteriormente,estaTesistienecomo objetivogeneraldesarrollarunprocesocompletodeinterpretaciónytraduccióndela LenguadeSeñasArgentinaatravésdevideosobtenidosconunacámaraRGB. Enprimerlugarserealizóunestudiodelestadodelarteenelreconocimientode gestos. Se investigaron técnicas inteligentes para el procesamiento de imágenes y videoasícomolosdiferentestiposdedescriptoresexistentesenlaactualidad.Como trabajopreliminarsedesarrollóunaestrategiacapazdeprocesaraccioneshumanas capturadasconundispositivoMSKinect.Laestrategiadesarrolladaimplementauna redneuronalSOMprobabilística(ProbSOM)conundescriptorespecíficamentedise- ñadopararetenerinformacióntemporal.Estetrabajopermitiósuperarlosresultados existenteshastaelmomentoparadosbasesdedatosreconocidas. En el campo de la lengua de señas se realizaron dos aportes principales. En primer lugar se desarrolló una base de datos específica para el reconocimiento de señasargentinas.Estoincluyóunabasededatosdeimágenescon16configuraciones de las más utilizadas en el lenguaje, junto con una base de datos de videos de alta resolucióncon64señasdistintas,conuntotalde3200videos.Estasbasesdedatos se grabaron con 10 intérpretes diferentes y varias repeticiones, permitiendo así su usocontécnicasclásicasdeaprendizajeautomático.Además,enestasbasesdedatos los intérpretes utilizaron guantes de color, en forma de marcador. Esto se realizó conelfindefacilitarlatareadesegmentarlasmanosdelasimágenes/videosyasí poder avanzar con el resto de las etapas de clasificación. De este modo, se da la posibilidadanuevosinvestigadoresdeevaluarotrosalgoritmosdereconocimiento sin la necesidad de preocuparse por esta etapa de segmentación. En segundo lugar, se diseñaron e implementaron dos métodos de clasificación de señas, los cuales fueron evaluados satisfactoriamente en las bases de datos antes mencionadas.Elprimermétodoestádedicadoalaclasificacióndeconfiguraciones de manos (gestos estáticos). Aquí se utilizó un agrupamiento probabilístico para clasificarcorrectamentelas16configuracionesposiblesdelabasededatos,logrando un reconocedor simple y potente. El segundo modelo de clasificación permitió la clasificación de señas segmentadas en videos. Este último consta de un sistema probabilístico basado en la información capturada de las dos manos, donde para cadaunaseevalúantrescomponentesprincipales:laposición,laconfiguraciónyel movimientode lasmanos.Estadiscriminación permitió tenerunsistemamodular, con diferentes sub-clasificadores capaces de intercambiarse y evaluarse de modo independiente. Para lograr obtener descriptores adecuados para estos subsistemas, es necesario realizar un procesamiento que involucra la correcta segmentación y seguimientodelasmanosdelintérprete,clasificacióndelasdistintasconfiguraciones yunacorrectarepresentacióndelainformacióndelmovimiento. VII Paraevaluarlosmodelosdesarrolladosserealizarondiversaspruebassobrelas bases de datos desarrolladas. En primer lugar se realizaron pruebas de validación cruzadautilizandounporcentajedelaspruebascomoentrenamientoyelrestopara testeo. Adicionalmente se realizó también una evaluación de cuán robusto es el sistema al incorporar nuevos intérpretes, desconocidos hasta el momento. De este modo, 9 de los 10 individuos de la base de datos fueron utilizados como datos de entradadelsistema,evaluandoconelindividuorestante.Todosestosexperimentos mostraronexcelentesresultados,conunatasadeerrormenoral5%.Porotrolado, paraevaluarlaeficaciadelmodeloimplementado,secambiaronalgunosdelossub- clasificadoresportécnicasmásconocidasenlaliteraturacomoModelosdeMarkov oRedesNeuronalesFeedForward,mostrandosolidezenlasestrategiaspropuestas enestaTesis. Índice general 1 Introducción ........................................... 1 1.1 Motivación ............................................... 1 1.2 Objetivos ................................................ 4 1.3 Alcances y Limitaciones .................................. 4 1.4 Contribuciones ........................................... 5 1.5 Publicaciones ............................................ 6 1.6 Organización de la tesis .................................. 7 2 Marco teórico y revisión bibliográfica .............. 9 2.1 Gestos dinámicos ....................................... 11 2.1.1 Acciones humanas .................................. 13 2.1.2 Gestos con las manos ............................... 13 2.1.3 Lenguas de señas ................................... 14 2.1.4 Tecnologías de captura .............................. 20 2.2 Obtención de descriptores para gestos ................... 25 2.2.1 Segmentación y Seguimiento ......................... 26 2.2.2 Configuraciones de manos ........................... 31 2.2.3 Descriptores de gestos ............................... 36 2.3 Técnicas de clasificación de gestos ...................... 43 2.3.1 Clasificación de configuraciones de manos ............ 44 2.3.2 Clasificación de gestos dinámicos ..................... 47 X ÍNDICEGENERAL 2.4 Bases de datos existentes para reconocimiento de gestos . 52 2.4.1 Bases de datos de gestos estáticos .................... 53 2.4.2 Bases de datos de Lengua de Señas .................. 55 2.4.3 Bases de datos de acciones humanas ................. 60 2.5 Conclusiones del capítulo ............................... 62 3 Una base de datos de la Lengua de Señas Argentina 65 3.1 Motivación .............................................. 65 3.2 Construcción de una base de datos de configuraciones .. 66 3.3 Construcción de una base de datos de señas ............ 68 3.3.1 Grabación y disponibilidad ........................... 69 3.3.2 Características principales de la base de datos ......... 72 3.4 Conclusiones del capítulo ............................... 76 4 Definición del modelo de clasificación ............ 77 4.1 Descripción general del modelo ......................... 77 4.2 Clasificación de configuraciones de manos .............. 79 4.2.1 Preprocesamiento de la imagen ...................... 79 4.2.2 Descriptores ........................................ 81 4.2.3 Modelo de clasificación ............................. 83 4.3 Definición de descriptores de una seña ................... 84 4.4 Clasificación de señas segmentadas ..................... 87 4.4.1 Subclasificador de Posición ........................... 88 4.4.2 Subclasificador de Movimiento ....................... 89 4.4.3 Subclasificador de Configuraciones ................... 90 4.5 Limitaciones y casos especiales ......................... 90 4.5.1 Señas con una sola mano ............................ 91 4.5.2 Señas sin movimiento en alguna mano ................ 92 4.6 Conclusiones del capítulo ............................... 92
Description: