ebook img

Correspondence Analysis and Data Coding with Java and R (Chapman & Hall Computer Science and Data Analysis) PDF

246 Pages·2005·1.73 MB·English
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Correspondence Analysis and Data Coding with Java and R (Chapman & Hall Computer Science and Data Analysis)

Chapman & Hall/CRC Computer Science and Data Analysis Series The interface between the computer and statistical sciences is increasing, as each discipline seeks to harness the power and resources of the other. This series aims to foster the integration between the computer sciences and statistical, numerical, and probabilistic methods by publishing a broad range of reference works, textbooks, and handbooks. SERIES EDITORS John Lafferty, Carnegie Mellon University David Madigan, Rutgers University Fionn Murtagh, Royal Holloway, University of London Padhraic Smyth, University of California, Irvine Proposals for the series should be sent directly to one of the series editors above, or submitted to: Chapman & Hall/CRC 23-25 Blades Court London SW15 2NU UK Published Titles Bayesian Artificial Intelligence Kevin B. Korb and Ann E. Nicholson Pattern Recognition Algorithms for Data Mining Sankar K. Pal and Pabitra Mitra Exploratory Data Analysis with MATLAB® Wendy L. Martinez and Angel R. Martinez Clustering for Data Mining: A Data Recovery Approach Boris Mirkin Correspondence Analysis and Data Coding with Java and R Fionn Murtagh R Graphics Paul Murrell Computer Science and Data Analysis Series Correspondence Analysis and Data Coding with Java and R Fionn Murtagh Foreword by J.-P. Benzécri Boca Raton London New York Singapore C5289_Discl Page 1 Wednesday, March 30, 2005 8:20 AM Published in 2005 by Chapman & Hall/CRC Taylor & Francis Group 6000 Broken Sound Parkway NW, Suite 300 Boca Raton, FL 33487-2742 © 2005 by Taylor & Francis Group, LLC Chapman & Hall/CRC is an imprint of Taylor & Francis Group No claim to original U.S. Government works Printed in the United States of America on acid-free paper 10 9 8 7 6 5 4 3 2 1 International Standard Book Number-10: 1-58488-528-9 (Hardcover) International Standard Book Number-13: 978-1-58488-528-3 (Hardcover) Library of Congress Card Number 2005041353 This book contains information obtained from authentic and highly regarded sources. Reprinted material is quoted with permission, and sources are indicated. A wide variety of references are listed. Reasonable efforts have been made to publish reliable data and information, but the author and the publisher cannot assume responsibility for the validity of all materials or for the consequences of their use. No part of this book may be reprinted, reproduced, transmitted, or utilized in any form by any electronic, mechanical, or other means, now known or hereafter invented, including photocopying, microfilming, and recording, or in any information storage or retrieval system, without written permission from the publishers. For permission to photocopy or use material electronically from this work, please access www.copyright.com (http://www.copyright.com/) or contact the Copyright Clearance Center, Inc. (CCC) 222 Rosewood Drive, Danvers, MA 01923, 978-750-8400. CCC is a not-for-profit organization that provides licenses and registration for a variety of users. For organizations that have been granted a photocopy license by the CCC, a separate system of payment has been arranged. Trademark Notice: Product or corporate names may be trademarks or registered trademarks, and are used only for identification and explanation without intent to infringe. Library of Congress Cataloging-in-Publication Data Murtagh, Fionn. Correspondence analysis and data coding with Java and R / by Fionn Murtagh. p. cm. Includes bibliographical references and index. ISBN 1-58488-528-9 1. Java (Computer program language) 2. R (Computer program language). 3. Correspondence analysis (Statistics) I. Title. QA76.73.J38M877 2005 005.13'3--dc22 2005041353 Visit the Taylor & Francis Web site at http://www.taylorandfrancis.com Taylor & Francis Group and the CRC Press Web site at is the Academic Division of T&F Informa plc. http://www.crcpress.com Preface Someyearsago,thecorrespondenceanalysisframeworkforanalyzingdatawas very widespread, in particular in France. A very large number of students passed through the doctoral school of Jean-Paul Benz´ecri in Paris. Many books were available, most of them in French. Many contemporary promi- nent researchers passed through Jean-Paul Benz´ecri’s graduate school. One objective of this book is to provide accessible inroads into this tradition. Asecondobjectiveistoshowhowandwherethetopicalityandimportance of correspondence analysis remain. We will exemplify this in areas such as the analysis of time-evolving data, and analysis of text. We will show how correspondence analysis remains unsurpassed as an analysis framework. Inthisbook,too,wegiveaveryclearreasonforthecontinuingimportance of correspondence analysis. We will not spoil the reading of this book by stating straight away what this is. It is simply, but profoundly, that data coding is handled so well by the correspondence analysis framework. The correspondence analysis framework offers not so much a theory of data, nor a theory of data interpretation, as a philosophy of – a conceptual approach to – data, and data interpretation. To support our work in writing this book we used software in the R sta- tistical language, and in the Java language, both of which relied on earlier softwareofoursorofothers,inotherlanguagesthatarenowlesswidelyused. This software, together with data sets used in this work, are available at the book’s web site: www.correspondances.info Note that correspondances is spelt as in French, with an “a.” Chapter 1 begins with a historical description of some important devel- opments which have led to today’s multivariate and multidimensional data analysis. The data analysis method known as principal components analysis is widely used in statistics, pattern recognition, signal processing, and many other areas, so we discuss in the form of a case study the application of it, principalcomponentsanalysis,andcorrespondenceanalysis,tothesamedata. Then, inthisfirstchapter, webeginthedescriptionofsoftware, whichwillbe continued, and illustrated with examples, in subsequent chapters. Chapter 2 is a theoretical overview of the mathematics and the underlying algorithms of correspondence analysis, together with hierarchical clustering. i ii Preface Itcanbereadinitsownright,oritcanbedippedintoastheneed,orinterest, arises. Chapter 3 addresses an area of data analysis that has not been given due attention in the past, but which is handled by quite a formidable range of software tools and options in the correspondence analysis tradition: this area is that of data coding. Clearly, the results of an analysis depend crucially on thedatathatareanalyzed. Theveryvariedpossibilitiesofferedbycorrespon- dence analysis are surveyed in this chapter. At the end of this chapter, the Java software is introduced, for correspondence analysis, for clustering, and interpretation tools. This software is independent of the R code presented in other chapters. Chapter4presentsanddiscussesarangeofcasestudies. Thesoftwareused is discussed. Chapter 5 firstly reviews the wealth of studies carried out on text by Jean- Paul Benz´ecri’s research and teaching lab over a number of decades. Based on this rich tradition, we pose the question: can correspondence analysis allowunderstandingoftextualcontent,inadditiontotextualform? Wewant to show the importance of correspondence analysis in artificial intelligence, in addition to stylometry and other fields. Through various examples we illustrate the textual analysis of content, as well as form. Software – for convenience in C – for analyzing text is available, and discussed. Then we move on to a large range of new studies, all with our aim of showing the relevance and utility of correspondence analysis in fields concerned with the analysis of textual information. The first and foremost acknowledgement for this work is to Jean-Paul Benz´ecri. May he find an accurate albeit limited reflection here of his re- sultsandwritingsovermanydecades. Muchinspirationandmotivationcame from discussions with T.K. Gopalan (Chennai), and material also for parts of chapters 2 and 3. Earlyon,questionsofmotivationwereraisedbyJonathanCampbell(Derry), and were addressed in the work represented here. For extensive comments on an early draft of this book, leading to much reshaping, I am indebted to Josiane Mothe (Toulouse) and Boris Mirkin (London). Dimitri Zervas wrote the programs in C for text analysis. Some material here was presented in an early form at the IASC/IFCS (International Association for Statistical Computing – International Federation of Classification Societies) Joint In- ternational Summer School, JISS-2003, on Classification and Data Mining in Business, Industry and Applied Research – Methodological and Compu- tational Issues, held at the Faculty of Psychology and Education Science, University of Lisbon, in July 2003, and organized by Helena Bacelar Nicolau. For early discussions on analysis of the Ross oil data, I am indebted to Pat Muldowney (Derry), which was in the context of a British Council project with Polish partners. Fionn Murtagh, Royal Holloway, University of London Avant-Propos Quand, en 1954–55 je s´ejournais a` Princeton, il n’y avait d’ordinateur (on disait: Computer),nia`l’Universit´e,nia`l’InstituteforAdvancedStudies. Un ´etudiant pouvait consacrer une ann´ee `a fabriquer un calculateur analogique, destin´e`ar´esoudredesprobl`emestechniquesd’unecat´egorieparticuli`ere. Etil en´etait de mˆeme au Laboratoire de Physique de l’E´cole Normale Sup´erieure. Je pensais que les ordinateurs ne pouvaient ˆetre que des merveilles; mais que, bien peu y ayant acc`es, il ´etait sage de recourir `a des simplifications math´ematiques radicales, afin de renfermer les calculs dans les limites du possible. C’estainsique,de1959a`1960,´etantauGroupedeRechercheOp´erationnelle de la Marine Nationale, je ne me faisais pas de scrupule de r´eduire a` une loi normale toute donn´ee multidimensionelle; collaborant parfois avec un cama- rade pour des simulations graphiques. Pourtant, quand, sur le projet de la Traduction Automatique des Langues Naturelles, linguistique, logique et math´ematique, entreprirent de collaborer enayantl’ordinateurpouroutil...,ilapparutque,danslavoiefray´eeparLouis Guttman † et Chikio Hayashi †, le principe d’´equivalence distributionnelle, propos´e par le linguiste Zelig Harris †, devait r´egler l’analyse des donn´ees statistiques. Alors, en donnant forme g´eometrique `a cette analyse, on aboutirait a` la recherche des axes principaux d’inertie d’un nuage de points munis de masse; probl`eme classique, en dimension 3, mais `a traiter ici en une dimension, n, quelconque. Cequirequiert,imp´erativement,desdiagonalisationsdematrices carr´ees n×n, calcul infaisable sans une machine, d`es que n d´epasse 3 (ou 4 ...). Vers 1963, diagonaliser une matrice 7×7, ´etait, pour un laboratoire mod- estement ´equip´e, une taˆche consid´erable. Par la suite, la Classification As- cendante Hi´erarchique demanda des calculs encore plus lourds que ceux des diagonalisations. Mais la puissance des machines croissant avec l’efficacit´e des algorithmes, notre carri`ere de statisticien se d´eveloppa...; en mettant au serviced’ambitionscroissantsanscesse, destechniquesdontleprogr`esd´efiait tous les rˆeves! Vers 2000, sur un micro-ordinateur tel que ceux offerts a` la client`ele des march´es, on peut, en quelques minutes, classer plusieurs milliers d’individus. Plusexactement,ilfautquelquesminutespourlesalgorithmesdeclassification et d’analyse factorielle... Mais la conception des donn´ees, leur mise en forme, l’examen des r´esultats prennent non seulement des heures, mais des mois... iii iv Preface Il n’y a plus, a` strictement parler, de probl`eme de calcul; mais le probl`eme mˆeme de l’Analyse des donn´ees subsiste; d’autant plus vaste que, le calcul ne mettant point de borne a` la recherche, on n’a point d’excuse pour s’arrˆeter dans la collecte des donn´ees et la m´editation. Relativement a` 1960..., le rap- port de difficult´e, entre projets intellectuels et calculs, est invers´e. Il s’en faut de beaucoup que les principes qui nous paraissent s’imposer soient admis de tous. Quant a` la philosophie des nombres, la distinction entre qualitatif et quan- titatif ne nous semble pasˆetre toujours bien comprise. En bref, il ne faut pas dire: • grandeur num´erique continue ≈ donn´ee quantitative; • grandeur a` un nombre fini de modalit´es ≈ donn´ee qualitative; car au niveau de l’individu statistique (e.g., le dossier d’un malade), une donn´eenum´erique: l’aˆge, oumˆeme: lapressionart´erielleoulaglyc´emie, n’est g´en´eralement pas `a prendre avec toute sa pr´ecision, mais selon sa significa- tion; et, de ce point de vue, il n’y a pas de diff´erence de nature entre ˆage et profession. Et surtout, pour comparer un individu a` un autre, il faut consid´erer, non deux ensembles de donn´ees primaires, par exemple deux ensembles de cent nombres r´eels, un point de R100, a` un autre point de R100, entre lesquels des ressemblances globales ne se voient pas, mais la synth`ese de ces ensembles, aboutissant a` quelques gradations, ou a` des discontinuit´es, `a des diagnos- tiques... Quant au calcul, les algorithmes d’analyse factorielle (dont on a dit que le couˆt num´erique est celui d’une diagonalisation de matrice) et de classi- fication ascendante hi´erarchique, jouant sur des donn´ees cod´ees suivant le principe global d’´equivalence distributionnelle (de profil), l’emportent en effi- cacit´e sur le jeu des contigu¨ıt´es entre individus, pris en compte par les algo- rithmesd’approximation stochastique, souventeffectu´es, aujourd’hui, suivant le sch´ema des r´eseaux de neurones. Tel est le Monde vu par un statisticien g´eom`etre apr`es quarante ans de pratique. Est-il permis d’assimiler le monde `a ce qu’on a vu et v´ecu? Pr´etention commune,aussicondamnablequelerefusderˆever–aumoins(fautedemieux) – sur l’avenir! Premi`erement: la question de reconnaˆıtre l’ordre de ce qui est dans les ´el´ements que saisissent les sens (ou les outils qui arment les sens) est peut- ˆetrecelle-mˆemedelaPhilosophie,danstoutesanoblesse. Onadit,enlatin... que toute connaissance commence par cequiestsensible danslesobjets dela nature: “Omnis cognitio initium habet a naturalibus... vel: a sensibilibus”. Au-dela` de cette connaissance, il n’y a que le myst`ere; et la r´ev´elation mˆeme, donn´ee par Dieu, se m´edite a` l’exemple de ce qu’on a pu connaˆıtre par le jeu naturel de la raison. Correspondence Analysis and Data Coding v Il faut ici que le statisticien, le g´eom`etre, le sociologue soient modestes! En cherchant ce qu’on a toujours duˆ chercher, chaque g´en´eration ne peut avoir fait plus que sa part: la question subsiste. Deuxi`eme: onvoitsurl’exempledesmath´ematiques,quelecalculnouveau, dont la vitesse d´epasse celle du calcul de notre g´en´eration dans un rapport aussi inimaginable aujourd’hui que ne l’´etait, il y a un demi-si`ecle, le rap- port de la complexit´e des calculs que nous avons pu faire a` celle des calculs ant´erieurs... on voit, dis-je, qu’il ne faut pas trop vite affirmer, m´eprisement, que la pens´ee ne peut que devenir paresseuse quand l’outil devient plus puis- sant. D’une part, afin de r´esoudre des probl`emes de calcul int´egral, on a invent´e des “fonctions sp´eciales”; et, chemin faisant, on a cr´e´e l’analyse des fonctions de variable complexe (ou, du moins, approfondi cette analyse). De mˆeme, pour l’int´egration des ´equations aux d´eriv´ees partielles, laquelle demande: la th´eorie des espaces fonctionnels. Aujourd’hui, tous les calculs pratiques semblent ˆetre r´eduits au jeu banal des m´ethodes les plus simples, sur des r´eseaux de points arbitrairement denses... En somme, le probl`eme pratique provoque (ou, du moins, aiguillonne) le d´ev´eloppement des id´ees th´eoriques; et le perfectionnement des outils rend paresseuse la sp´eculation th´eorique. Cependant,lemouvementinverseexisteaussi. Onremarquedesco¨ıncidences; etondonnea`cesco¨ıncidencesformedelois,misesencirculation,avantquele d´eveloppement d’id´ees th´eoriques appropri´es permette de d´emontrer ces lois. Lath´eoriedesfonctionsanalytiquesdoitbeaucoupaud´esirded´emontrerle grand th´eor`eme de Fermat: xn+yn =zn n’a pas de solution pour des entiers n>2. Or Fermat n’a pu conjecturer qu’apr`es avoir calcul´e ... remarqu´e ... essay´e derenversersaremarqueoudelaconfirmer;etcela,aveclesmoyensdecalcul de son temps. Voici un exemple trouv´e, par internet: le r´esum´e d’un article de Th´eorie physique des hautes ´energies: hep-th/9811173 19 Nov 1998; @ http://xxx.lanl.gov/ r´esum´e qui int´eressera ceux mˆemes qui ne sont pas mieux avertis que moi de la th´eorie des fonctions zeta g´er´eralis´ees et de l’analyse des diagrammes de Feynman (de la Th´eorie Quantique des Champs) faite en d´enombrant des noeuds. Au prix de calculs formidables, on aboutit au r´esultat que des fractions, dont le num´erateur, “a”, peut ˆetre de l’ordre de un million, n’ont pas de num´erateur, “b”, sup´erieur a` 9. Avec, `a la fin du r´esum´e cette conclusion. Nos r´esultats sont suˆrs, num´eriquement; mais il semble bien difficile de les d´emontrer par l’analyse. “Suˆrs”´etanta`comprendreentermesstatistiques: sil’onproc`edepartirage al´eatoire, il n’y a pour ainsi dire pas de tels ensembles de fractions, etc. ..., pr´esentant les propri´et´es arithm´etiques qu’on a trouv´ees. vi Preface Onserapeut-ˆetreencoreplussurprisdetrouver,danscemˆemedomainede la Physique des hautes ´energies, des conclusions telles que la suivante: Le r´esultat de la pr´esente ´etude ne fait aucun douˆte... Cependant, pour d´ecider de telle autre question..., il faudrait des calculs mille fois plus com- plexes; calculs pr´esentement inabordables. Mais comme, r´ep´etons-le, la rapidit´e des instruments de calcul a, en un demi-si`ecle, ´et´e plusieurs fois multipli´ee par mille, cette conclusion n’est pas `a prendre ironiquement. Pr´esentement, la physique th´eorique des hautes ´energies progresse, princi- palement,enconstituantdescorpusdeph´enom`enesraresparmidesensembles immenses de cas ordinaires. La seule observation d’un de ces cas ordinaires demande des appareils de d´etection ou` jouent simultan´ement des millions de petits d´etecteurs ´el´ementaires... Finalement toute la Physique est subordonn´ee au progr`es de cette branche particuli`ere, de physique du solide, a` tr`es basse´energie, qui produit les outils ded´etectionetdecalcul. [Les“puces”,dontlenomestconnudetous,n’´etant que la moindre chose en la mati`ere...]. Quant aux probl`emes de l’avenir dans des domaines mieux connus de tous que la physique th´eorique et l’analyse des fonctions zeta... mais interdits jusqu’a` pr´esent `a tout traitement num´erique satisfaisant: analyse des images ou mˆeme seulement des sons de la musique et de la parole; configurations m´et´eorologiques saisies globalement, dans toutes leurs dimensions, alors que, de par le seul fait des mouvements du terme puisque chaque jour, de par les variables astronomiques, ne peut que diff´erer des autres jours qui le suivent ou le pr´ec`edent... voici ma premi`ere impression. Les praticiens foncent dans les analyses, les transformations de Fourier d’images, etc., sans savoir ce qu’ils cherchent. Jesuisassezsatisfaitdesid´eesquejemesuisfaitessurlaparole(mˆemesij’ai plutoˆtunprogrammederecherchesquedesr´esultatssuffisants: voir“Analyse spectrale et analyse statistique de la voix humaine parl´ee”, Les Cahiers de l’Analyse des Donn´ees, Vol. XIII, 1988, no. 1, pp. 99–130). Je dois avouer (ne le dites `a personne, je vous en prie!) que l’analyse des donn´ees n’y est pour rien. Ce qu’il faut, ce a` quoi je me targue d’avoir quelque peu r´eussi... c’est voir ce qui, dans les objets ´etudi´es, en l’esp`ece des sons, est pertinent. Voila` ce dont on doit d’abord s’enqu´erir dans tout corpus de dimension et de complexit´e “astronomiques”. Je le r´ep`ete: le statisticien doit ˆetre modeste... le travail de ma g´en´eration a ´et´e exaltant... une nouvelle analyse est a` inventer, maintenant que l’on a, et parfois a` bas prix, des moyens de calcul dont on ne rˆevait mˆeme il y a trente ans... Mˆeme si les voies explor´ees, jusqu’ici, dans certains domaines, sur lesquels il ne serait pas charitable d’insister, offrent a` notre ironie une facile mati`ere... Jean-Paul Benz´ecri

Description:
Developed by Jean-Paul Benz?rci more than 30 years ago, correspondence analysis as a framework for analyzing data quickly found widespread popularity in Europe. The topicality and importance of correspondence analysis continue, and with the tremendous computing power now available and new fields of
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.