Content Addressable Multimedia Database Server for Medicine Registo Electr´onico de Sau´de “PANORAMIX” Pedro Miguel Nunes Santos Disserta¸ca˜o para obtenc¸˜ao do Grau de Mestre em Engenharia Inform´atica e de Computadores Ju´ri Presidente: Prof.a Doutora Ana Maria Severino de Almeida e Paiva Orientador: Prof. Doutor Andreas Miroslaus Wichert Vogais: Prof. Doutor Diogo Manuel Ribeiro Ferreira Prof.a Doutora Helena Isabel de Jesus Galhardas Setembro 2008 Agradecimentos Antes de mais queria agradecer a toda a minha fam´ılia que ao longo destes anos sempre me apoiou no meupercursoacad´emico. AomeuPaipeloss´abiosconselhoseensinamentos,t˜aou´teisquerparaoˆambito desta tese, quer para a vida. Ao meu Irm˜ao pela “paciˆencia para me aturar”, at´e mesmo nos momentos menos “racionais”. E um agradecimento especial `a minha M˜ae, primeiro pela incondicionalidade do seu amor, edepoispelasuavalios´ıssimaopini˜aoprofissionalcomom´edica, imprescind´ıvelnodesenvolvimento deste trabalho. Agrade¸co ao Professor Andreas Wichert pela preciosa orienta¸c˜ao e todo apoio prestado ao longo da realiza¸c˜aodestatese. Maisdoqueopapeldecoordenador,oprofessortornou-seumamigoementor,pelo qual tenho a maior estima e gratid˜ao. It has been an honor and a privilege to work with you! Aosmeuscolegas(eamigos)de“gabinete”queaolongodesteano,maisdoquepartilharemumespac¸ode trabalho,contribu´ıramcomasuaboadisposi¸c˜aoeprest´avelopini˜aocr´ıtica,tornandomaisleveotrabalho. Uma palavra de apre¸co ao Lu´ıs Tarrataca e Ricardo Pego pelo indispens´avel apoio t´ecnico prestado nas diversas etapas desta tese. Agrade¸co tamb´em `a Sofia Matos, da empresa Alert, pela am´avel disponibilidade e ajuda prestada para al´em de qualquer obrigac¸˜ao. Ao Dr. Thomas Lehmann (Dpt. of Medical Informatics of Aachen Uni- versity of Technology) pela gentil cedˆencia de material necess´ario ao desenvolvimento desta tese. Ao grupo DMIR coordenado pela Professora Helena Galhardas, pela disponibilidade e valiosa opini˜ao cr´ıtica na apresenta¸c˜ao do state-of-the-art. A todos os meus amigos que me ajudaram a viver al´em do tra- balho, permitindo desanuviar e enfrentar com outros olhos, todos percalc¸os que foram surgindo pelo caminho. Finalmente agradec¸o a todos os ilustres desconhecidos, que de alguma maneira contribu´ıram quer para levar este trabalho a bom termo, quer para me ajudar a chegar at´e aqui. Muito Obrigado a todos! i Resumo UmadasgrandesvantagensdossistemasEHR(ElectronicHealthRecords),emrelac¸˜aoaosseushom´ologos empapel,´equedocumentammuitomelhoroestadodesau´dedeumpaciente,anexandoexamescl´ınicosao respectivo processo (permitindo a pesquisa/gest˜ao electr´onica). No entanto o crescente nu´mero e volume dos mesmos, especialmente tratando-se de exames em formatos media/multimedia n˜ao textuais, constitui um problema de pesquisa e gest˜ao de informa¸c˜ao. Isto porque se trata de formatos n˜ao estruturados, cujo conteu´do s´o ´e pesquis´avel por queries textuais “convencionais”, se existir anota¸c˜oes externas com metadados que o descreva – Content Based Image Retrieval. Estes por sua vez s˜ao constru´ıdos a partir de processos de classificac¸˜ao e tagging manuais, sendo dispendiosos, pouco objectivos e descritivos em rela¸c˜ao aos conteu´dos. Para exames imagiol´ogicos em medicina, uma alternativa `a pesquisa textual segundo estes descritores ser´a atrav´es de caracter´ısticas estruturais de baixo n´ıvel das imagens (textura, cor, forma) extra´ıdas automaticamente. Os parˆametros de pesquisa podem ser definidos fornecendo-se uma imagem-exemplo semelhante ao que pretendemos encontrar (query-by-example). Oobjectivodestatesedemestrado´eaimplementac¸˜aodeumsistemaEHRqueintegreumabasededados multim´edia endere¸c´avel por conteu´do, atrav´es de m´etodos de pesquisa CBIR. Esta disserta¸c˜ao descreve o desenvolvimento do sistema, iniciando-se por um enquadramento te´orico e levantamento do “estado-da- arte”quecontextualizamotrabalho. Segue-seadescri¸c˜aodaarquitectura,doprocessodedesenvolvimento e as op¸c˜oes de implementac¸˜ao. Por fim as funcionalidades CBIR s˜ao testadas e avaliadas, seguindo-se das conclus˜oes com algumas propostas de trabalhos futuros. Palavras-chave: CBIR(ContentBasedImageRetrieval),EHR/EMR(ElectronicHealth/MedicalRecords), GEMINI (Generic Multimedia Indexing), Informac¸˜ao cl´ınica de paciente, Pesquisa Hierarchical Linear Subspace, WebObjects. ii Abstract OneofgreatestadvantagesofElectronicHealthRecords(EHR)overtheirpaper-basedcounterpartsisthe completeness and accuracy of the resulting patient health status assessment, since it is easier to include his clinical/diagnostic tests together in the medical chart (the images remain available electronically). However the increasing count and volume constitute an information management and search problem. Especially when concerning clinical/diagnostic tests in non-textual media/multimedia formats because they are unstructured information. Therefore they only are searchable through “conventional” textual queries if the files are annotated with meta-data thorough external descriptors, which translate their content. This process is called Content Based Image Retrieval. Those descriptors are made, most of the times, trough manual tagging processes, which are expensive, biased and describes poorly the media content. For imagery clinical/diagnosis tests (for instance X-rays, CT-scans (computerized tomography) and MRI (MagneticResonanceImaging))apossiblealternativetosearchimagesisthroughautomaticallyextracted low-levelfeatures(textures,colors,shapes). Thesearchparametersaresetthroughaquery-image,similar to what we want to find (query-by-example). ThegoalofthisMaster’sThesisisanEHRsystemimplementation,withacontent-addressablemultimedia database. This Dissertation describes the development of the system, starting with a state-of-the-art analysis and a theoretical and contextual overview. After that we describe the system architecture, the development process and some implementation options. At the end the CBIR functionalities are tested and evaluated, followed by the statement of findings and conclusions with some suggestions for possible future works. Key Words: CBIR(ContentBasedImageRetrieval), EHR/EMR(ElectronicHealth/MedicalRecords), GEMINI (Generic Multimedia Indexing), Hierarchical Linear Subspace search, Patient clinical informa- tion, WebObjects. iii Sec¸c˜ao I ˜ DISSERTAC¸ AO iv ´ Indice I DISSERTAC¸A˜O iv 1 INTRODUC¸A˜O 1 1.1 Motivac¸˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Objectivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Solu¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4 Estrutura da Dissertac¸˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2 ENQUADRAMENTO TEO´RICO E CONTEXTUAL 6 2.1 Registos cl´ınicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2 O que s˜ao os EMR/EHR? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.3 Estrutura e Arquitectura de um EHR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4 Interoperabilidade – Standards e formatos . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.4.1 HL7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.4.2 DICOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.4.3 Interoperabilidade “incompat´ıvel” . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.5 Principais Tecnologias de Implementa¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.5.1 PhP (LAMP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.5.2 JEE e .NET. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.5.3 Web-Objects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.6 BDs Multim´edia e Content-based Retrieval em EHRs. . . . . . . . . . . . . . . . . . . . . 36 2.7 Implementac¸˜oes de EHRs na actualidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3 ARQUITECTURA DO SISTEMA 44 3.1 Arquitectura Aplicacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.2 Arquitectura de Informac¸˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.3 Arquitectura Funcional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4 IMPLEMENTAC¸A˜O 52 4.1 Processo de Desenvolvimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.2 Dados Cl´ınicos da Ficha de Paciente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.3 Algoritmos CBIR Implementados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.3.1 Histogramas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 4.3.2 Brute Force . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4.3.3 Hierarchical Linear Subspace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 v 4.4 Base de Dados Vs. Sistema de Ficheiros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 5 TESTES E ANA´LISE DE RESULTADOS 65 5.1 Condi¸c˜oes de Teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.2 Ca´lculo de Thresholds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5.3 Testes de Eficiˆencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 5.4 Testes de Efic´acia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 6 CONCLUSA˜O 76 6.1 Trabalho Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 6.2 Aprendizagens e Contribui¸c˜oes Pessoais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 II BIBLIOGRAFIA 79 Referˆencias Bibliogr´aficas 80 III APEˆNDICES E ANEXOS 85 A Compara¸c˜ao de EHRs no Mercado 86 B Modelo de Dados (Schema da BD) 88 C Modelo de Ficha de Paciente de Cl´ınica Geral 90 D Gr´afico de Distˆancias no Dataset 102 E Compara¸c˜ao entre armazenamento em BD e ficheiros 104 F Registos de Resultados Experimentais (Eficiˆencia) 107 G Registo dos Resultados Experimentais (Efic´acia) 112 H Manual de Utilizador 117 vi ´ Indice de Figuras 2.1 Registos cl´ınicos – ciclo de vida e processos afins. . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 Planifica¸c˜ao de EHRs nos cuidados prim´arios em Portugal. . . . . . . . . . . . . . . . . . 11 2.3 Barreiras ´a implementa¸c˜ao de EHRs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.4 Arquitectura tecnol´ogica (t´ıpica) de um EHR. . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.5 Dom´ınios do HL7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.6 Processo de refinamento e deriva¸c˜ao de mensagens HL7. . . . . . . . . . . . . . . . . . . 21 2.7 Tipos de aplicac¸˜oes contruidas com WebObjects. . . . . . . . . . . . . . . . . . . . . . . . 31 2.8 Frameworks dos WebObjects. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.9 Acesso `a camada persistente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.10 WebObjects e o Direct to Web. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.11 Funcionamento de um sistema CBIR.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.12 Framework do GIFT.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.1 Diagrama de Componentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.2 Modelo de Dom´ınio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.3 Diagrama de Casos de Uso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.1 Processo de desenvolvimento do software. . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.2 Excerto da Ficha Cl´ınica Individual. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.3 Excerto da p´agina de paciente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.4 P´agina de pesquisa CBIR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.5 Pirˆamide de Imagens. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 5.1 Gr´afico de distˆancias entre imagens no datset. . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.2 Estimativa de thresholds. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.3 Gr´aficos referentes ao tempo do m´etodos de Histogramas, no Mac 2. . . . . . . . . . . . . 69 5.4 Gr´aficos de tempo do m´etodo “BruteForce”. . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.5 Gr´aficos de valores m´edios do Hierarchical Subspace (Mac 2) por no de hits. . . . . . . . . 71 5.6 Gr´aficos de valores m´edios do Hierarchical Subspace (Mac 2) p/threshold. . . . . . . . . . 72 5.7 Gr´afico do tempo m´edio do Hierarchical Subspace (Mac 2) por no de compara¸c˜oes. . . . . 72 B.1 Modelo de Dados (schema da BD). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 C.1 Ficha cl´ınica individual Adultos (pag.1). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 C.2 Ficha cl´ınica individual Adultos (pag.2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 vii C.3 Ficha cl´ınica individual Adultos (pag.3). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 C.4 Ficha cl´ınica individual Adultos (pag.4). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 C.5 Ficha Familiar (pag.1). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 C.6 Ficha Familiar (pag.2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 C.7 Ficha Familiar (pag.3). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 C.8 Ficha Familiar (pag.4). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 C.9 Ficha de Consulta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 C.10Folha de Registo de Exames Cl´ınicos (pag.1). . . . . . . . . . . . . . . . . . . . . . . . . . 100 C.11Folha de Registo de Exames Cl´ınicos (pag.2). . . . . . . . . . . . . . . . . . . . . . . . . . 101 D.1 Gr´afico de distˆancias entre imagens no datset. . . . . . . . . . . . . . . . . . . . . . . . . . 103 E.1 Gr´aficos referentes ao tempo do m´etodos de histogramas, no Mac 1 1a leitura. . . . . . . . 105 E.2 Gr´aficos referentes ao tempo do m´etodos de histogramas, no Mac 1 2a leitura. . . . . . . . 106 F.1 Gr´aficos de valores m´edios do Hierarchical Subspace (Mac 1 – 1a leitura) por no de hits. . 108 F.2 Gr´aficos de valores m´edios do Hierarchical Subspace (Mac 1 – 1a leitura) p/threshold. . . 109 F.3 Gr´aficodotempom´ediodoHierarchicalSubspace(Mac1–1a leitura)porno decompara¸c˜oes.109 F.4 Gr´aficos de valores m´edios do Hierarchical Subspace (Mac 1 – 2a leitura) por no de hits. . 110 F.5 Gr´aficos de valores m´edios do Hierarchical Subspace (Mac 1 – 2a leitura) p/threshold. . . 111 viii ´ Indice de tabelas 2.1 N´ıveis de integra¸c˜ao do NAHIT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2 M´etodos de extracc¸˜ao de caracter´ısticas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.1 Histogramas (Mac 2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 5.2 Valores m´edios registados nos m´etodos de pesquisa (Mac 2). . . . . . . . . . . . . . . . . . 71 A.1 Tabela de Compara¸c˜ao de EHR no Mercado. . . . . . . . . . . . . . . . . . . . . . . . . . 87 E.1 Histogramas (Mac 1 – 1a leitura). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 E.2 Histogramas (Mac 1 – 2a leitura). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 F.1 Valores m´edios registados nos m´etodos de pesquisa (Mac 1 – 1a leitura). . . . . . . . . . . 108 F.2 Valores m´edios registados nos m´etodos de pesquisa (Mac 1 – 2a leitura). . . . . . . . . . . 110 G.1 Resultados da Query 1 (R-x `a m˜ao). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 G.2 Resultados da Query 2 (R-x `a zona p´elvica).. . . . . . . . . . . . . . . . . . . . . . . . . . 114 G.3 Resultados da Query 3 (R-x ao pulm˜ao). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 G.4 Resultados da Query 4 (R-x ao crˆanio). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 ix
Description: