Medizinische Informatik und Statistik Herausgeber: S. Koller, P. L. Reichertz und K. Oberla 26 Explorative Datenanalyse FrOhjahrstagung der GMDS MOnchen, 21. - 22. Marz 1980 Herausgegeben von N. Victor, W. Lehmacher und W. van Eimeren Springer-Verlag Berlin Heidelberg New York 1980 Reihenherausgeber S': Koller, P. L. Reichertz, K. Oberla Mitherausgeber J. Anderson, G. Goos, F. Gremy, H.-J. Jesdinsky, H.-J. Lange, B. Schneider, G. SegmOller, G. Wagner Bandherausgeber N. Victor Abt. Biomathematik, FB 18 Universitat GieBen Heinrich-Butt-Ring 44 6300 GieBen W. Lehmacher W. van Eimeren Gesellschaft fUr Strahlen- und Umweltforschung mbH Institut tOr Medizinische Intormatik und Systemtorschung ArabellastraBe 4/111 8000 MOnchen 81 ISBN-13: 978-3-540-10281-6 e-ISBN-13: 978-3-642-81515-7 001: 10.1007/978-3-642-81515-7 ClP-Kurztitelaufnahme der Deutschen Bibliothek Explorative Datenanalyse: Friihjahrslagung d GMJS. Wllnchen, 21.-22. MArl 1980 1 hrsg. von W. van Eimeren ... -Beriin; Heidelberg; New York: Springer, 1980. (Medizinische Informatik und Statistik; 26) ISBN 3-540-10281-7 (Beriin, Heidelberg, New York) ISBN 0-387-10281-7 (New York, Heidelberg, Berlin) NE: Eimeren, Wilhelm van [Hrsg:); Deutsche Gesellschaft fOr MedizinischeDokumentation, Informatik und Statistik; GT This work is subject to copyright. All this are reserved, whether the whole or part of the material is concerned, specifically those of translation, reprinting, re-use of illustrations, broadcasting, reproduction by photocopying machine or similar means, and storage in databanks. Under § 54 of the German Copyright Law where copies are made for other than private use, a fee ist payable to Verwertungsgesellschaft Wort, Munich. © by Springer-Verlag Berlin Heidelberg 1980 2145/3140-543210 VORy/ORT Die hier vorgelegten Beitdige zur explorativen Datenanalyse ent stammen der Fruhjahrstagung 1980 des Fachbereichs "Planung und Auswertung" der Gesellschaft fur Medizinische Dokumentation, In formatik und Statistik (GMDS). Die in Zusammenarbeit mit der Gesellschaft fUr Strahlen- und Umweltforschung mbH (GSF) (und darin dem Institut fUr Medizinische Informatik und Systemforschung (MEDIS» in Munchen organisierte Tagung fand bei den rund 150 Teil nehmern reges Interesse. Dies dokumentiert das Verdienst der GMDS, diesen international in der angewandten Sta tistik immer starker ins Interesse rUckenden Trend statistischer Analysen fUr den deutschsprachigen Bereich erstmals umfassender zu behandeln. Dennoch ersetzen die Beitrage kein Lehrbuch, sie stehen exempla r isch fur den augenblicklichen Stand der Entwicklung und Anwendung explorativer Datenanalyse im medizinischen Anwendungsbereich. Da bei wurden klassische Gebiete mit groBerer Verbreitung und mit groBerem Bekanntheitsgrad wie Cluster- und Faktorenanalyse bewuBt ausgeklammert. Mit dem Dank an alle Autoren mOchte ich die Aufforderung verknup fen, daB die FrUhjahrstagung und dieser Band nur Auftakte einer intensiveren Diskussion urn explorative Datenanalyse sein mOgen. Munchen, im August 1980 Wilhelm van Eimeren INHAL TSVERZEICHNIS Seite 1. Explorative Datenanalyse im Rahmen der Statistik Stellung der Explorativen Datenanalyse (EDA) im Rahmen 2 der Sta tis tik N. VICTOR Explorative Datenanalyse 6 H. H. BOCK Explorative und Konfirmatorische Datenanalyse - 38 Gegensatz oder Erganzung? P. IHM Voraussetzungen und Grenzen der Explorativen Datenanalyse 54 R. ZENTGRAF und H. NOWAK Erganzende Bibliographie 63 2. Explorative Analyse als Strategie fur Anwendungsprobleme Comparison of Clinical Trials in Acute Myelogenous 68 Leukaemia by Use of a Mathematical Model R.R.P. JACKSON, L.J. MOULLIN, W. GREGORY, R. BELL, J.M.A. WHITEHOUSE und T.A. LISTER Bemerkungen zum PatientenfluBmodell von Jackson 91 und Aspden sowie verwandten Ansatzen Th. SCHAFER Applications of Non-Homogeneous Markov Chains 102 to Medical Studies o. BORGAN Auswertungskonzepte fur empirische Studien 116 N. VICTOR, E.P. BROSZIO und K. NAUMANN Aufgaben der Explorativen Datenanalyse in 130 der medizinischen Qualitatssicherung H.K. SELBMANN und W. WARNCKE Welches Modell paBt zu den Daten? 141 A. NEISS 3. Methodische Ansatze Die Konfigurationsfrequenzanalyse qualitativer 147 Daten als Explorative Methode W. LEHMACHER Some Comments on the GUHA Procedures 156 T. HAVRANEK Latent Structure Analysis 178 F. KRAUSS Kovarianzselektion als Explorative Methode 194 N. WERMUTH Die Einsetzbarkeit der statistischen Methoden 204 zur Analyse von Uberlebenszeiten J. WAHRENDORF KAPITEL 1 EXPLORATIVE DATEN ANALYSE 1M RAHMEN DER ST AT lSTIK STELLUNG DER EXPLORATIVEN DATENANALY SE (EDA) 1M RAHMEN DER STATlSnK Warum eine Sitzung zu diesem Thema? N. VICTOR Abteilung Biomathematik Universitat Giessen Stellung der Statistiker zur EDA EDA ist eine Vorgehensweise bei dem Versuch der Erkenntnisgewinnung aufgrund vorl ie gender Daten, die auf die Entdeckung unbekannter Strukturen in diesen Daten gerichtet ist. Viele Statistiker stehen der EDA skeptisch gegenUber oder beurteilen sie ein deutig negativ, da sie nicht ins Konzept der traditionellen statistischen SchluB weise (statistical inference) paBt. Der Statistiker, der bei der Auswertung von Daten explorativ vorgeht, muB sich bezUgl ich seiner Arbeitsweise oft Urteile wie: "contra legem artis", "nicht fachgerecht", "schmutzig" u.a. anhoren. Sicherlich ist der hau fige MiBbrauch der EDA unbestreitbar; es ware jedoch zu einfach, die Schuld daran der Vorgehensweise und den dabei eingesetzten Verfahren an sich zuzuschreiben und des halb ihre Verbannung aus der Statistik zu fordern. Die Statistiker mUssen sich viel mehr fragen, ob sie an diesen MiBstanden nicht selbst die Schuld tragen, weil sie - sich nie ernsthaft um die Schaffung einer fundierten Basis fUr die EDA bemUht haben, - trotzoffensichtlichen Bedarfs dieses Gebiet der Statistik vernachlassigt und seine Pflege den Substanzwissenschaftlern Uberlassenhaben und - mehrheitl ich dogmatisch an der AlleingUltigkeit des Schemas 'Hypothese _ Datener hebung __ Test' festha lten, ohne a lternati ve Vorgehenswei sen zur Erkenntni sgewi n ung Uberhaupt in Erwagung zu zi ehen. Den durch dieses Schema ab- und eingegrenzten Bereich der Statistik mochte ich testende Statistik und die Vertreter seiner AlleingUltigkeit testende Statistiker nennen. 3 Hat die EDA ihre Berechtigung innerha1b der Statistik? Die Hypothesen - der Ausgangspunkt im Schema der statistischen Sch1uBweise - fallen nicht vom Himmel; nicht Hypothesen, sondern Beobachtungen, d.h. Daten, und die Be schaftigung damit stehen am Beginn jeder Erkenntnisgewinnung. Die AnstoBe zur Bi1- dung von Hypothesen, Made11en oder Theorien gehen meist von Auffa11igkeiten in diesen Daten aus. Explorative Verfahren sind Hi1fsmitte1 bei der Suche nach sol chen Auf fa11igkeiten, und daher ist ihre Bedeutung fUr die Statistik unbestreitbar! Die in der AbschnittsUberschrift gestellte Frage ist damit· eindeutig beantwortet, und wi r brauchen auch di e die of zu horende Frage "Darf man a 1s Sta ti sti ker Ver fahren der EDA Uberhaupt anwenden?" zu di skuti eren, sondern wi r sol1 ten uns im Ver- 1auf dieses Tages urn die richtige Einordnung und Gewichtung dieser Vorgehensweise innerha1b der Statistik bemUhen. Wir sollten auch nicht im Streben nach Avantgardis mus die Frage aufwerfen "1st die testende Statistik Uberholt?", denn diese wird an ihrem Platz ihre Bedeutung behalten. Nur wenn wir das Zie1 des heutigen Tages so sehen, kann unser der Diskussion Uber die EDA gewidmetes Treffen zur Weiterentwick1ung der Stat"istik beitragen, einer Weiter entwick1ung, die ich durch die starke Divergenz zweier Gruppen von Statistikern ge fahrdet sehe: den Puristen der testenden Statistik auf der einen Seite, die a1s ein zige Aufgabe der Statistik die PrUfung an sie herangetragener Hypothesen nach obigem Schema ansehen, und die DatenschnUff1er auf der anderen Seite, die das Suchen und Pub1izieren von Auffa11igkeiten a1s ihre einzige Aufgabe ansehen, ohne sich der Serendipity-Gefahr Uberhaupt bewuBt zu sein. We1che Aufgaben der Statistik werdendurch die EDA abgedeckt? Will man die Einordnung einer Vorgehensweise in den Rahmen de.r Statistik diskutieren, muB man vorab den Aufgabenkomplex der Statistik umreiBen. Unter Statistik verstehe ich hier die sogenannte angewandte Statistik, die sich zwar des von der mathemati schen Statistik errichteten Gebaudes bedient, deren Aufgabenbereich jedoch weit Uber die von diesem Gebaude vorgezeichneten Grenzen hinausreicht. Zu den weiterreichenden Aufgaben gehoren vor a11em die geeignete Umsetzung praktischer Prob1eme in stati stische Mode11e und die RUckUbersetzung der Ergebnisse statistischer Verfahren in die Praxis, d.h. die sachgerechte Interpretation. Die testende Statistik deckt den auBerst wichtigen Bereich der Prob1emumsetzung bzw. der Mode11entwick1ung nicht ab; diese LUcke v,ersucht die EDA zu sch1iei3en. Es ist das Typische an Frageste11ungen, die aus praktischen Prob1emen entstehen, daB sie bezUg lich der Hypothesenformu1ierung zu unprazise fUr die direkte Anwendung eines Tests sind. Solche Frageste11ungen 1auten z.B.: We1che Variab1en aus einem groBen Komplex potentieller StorgroBen haben tatsach1ich Einf1uB auf meine Zie1groBe und welcher Art ist dieser Einf1uB? Die Forderung nach weitergehender Prazisierung der Frage, bevor man sich a1s Statistiker damit befassen konne, ste11t ein Abschieben wichtiger Auf- 4 gaben und wichtiger Verantwortung auf die Schultern des Substanzwissenschaftlers und eine Schmalerung der Bedeutung des Statistikers dar. Die Hilfestellung bei der Pra zisierung der Fragestellung gehart in den Aufgabenbereich des Statistikers und ex plorative Verfahren sind u.a. ein wichtiges Hilfsmittel bei dieser Prazisierung. Statistiker, die die Zugeharigkeit der EDA zur Statistik weiterhin anzweifeln, machte ich darauf hinweisen, daB in einem anderen Aufgabenbereich der Statistik - der Er gebnisinterpretation - ein exploratives Vorgehen seit langem praktiziert und akzep tiert wird. Es ist Ublich zu versuchen, einen inferenzstatistisch gefundenen Zusam menhang durch Betrachtung aller maglichen ursprUnglich nicht in die inferenzstati stische Analyse einbezogenen EinfluBgraBen, d.h. durch nachgeschobene Schichtungen, letztendlich doch als Effekt einer Hintergrundsvariablen zu erklaren. Dies heiBt aber: eingestehen, daB man vorab nicht in der Lage war, alle relevanten EinfluB graBen ins l40dell einzubeziehen bzw. die Fragestellung genUgend genau zu prazisieren. Selbstverstandlich haben auch die testenden Statistiker die unzureichende Prazision der Ublicherweise an sie herangetragenen Fragen erkannt und nach Antworten auf dieses Problem gesucht. Ihr Lasungsvorschlag sind die fUr bestimmte Probleme auBerst wichti gen Methoden der simultanen Inferenz (z.B. nach Bonferroni oder Scheffel. FUr ex plorative Fragestellungen, d.h. fUr die Suche nach Strukturen oder Hypothesen, sind sie jedoch nur nach Modifikation geeignet, da sie sonst die Fragestellung in ihrer Zielrichtung (hin zur konfirmatorischen Absicherung) verandern, indem sie diese in eine inferenzstatistische Zwangsjacke stecken und damit "tot-scheffeisieren". Als Statistiker muB man akzeptieren, daB es Aufgaben der Statistik gibt, zu deren Lasung der Test ein ungeeignetes Mittel ist. 1st die EDA oder die testende Statistik wichtiger? Die vollkommen unterschiedlichen Zielrichtungen der testenden Statistik und der EDA muB man auch bei der Abwagung der Bedeutung beider Bereiche berUcksichtigen. Das Ziel der testenden Statistik ist das Verhindern falscher Aussagen; sie dient der Ab sicherung des Forschers vor vorschnellen SchlUssen und wirkt daher zwar steuernd, aber auch restriktiv auf das Vorwartskommen der Forschung. Diese Absicherung kann derart Ubertrieben werden, z.B. wenn ein beratender Statistiker sich mit kleinem Ge samt~ gegen Fehlaussagen in seiner gesamten Beratertatigkeit absichern machte, daB jegliches Fortschreiten der Forschung unterbunden wird. Diese Sicherungsfunktion ist eine wichtige, jedoch nicht die einzige Aufgabe der Statistik. Ziel der EDA ist die UnterstUtzung des Forschers beim Aufdecken neuer Phanomene; man kann sie daher auch als forschende Statistik bezeichnen. Da sie als Ergebnis aber nur Hinweise und keine bezUglich ihrer GUltigkeit quantifizierbare Aussagen liefert, kann man auch nicht auf sie allein bauen. Die EDA benatigt die Erganzung durch inferenzstatistische Methoden, und ich machte mich der Forderung Tukeys anschlieBen, daB explorative und konfirmatorische Analysen nebeneinander voranschreiten mUssen. 5 Anstehende Probleme Wie dieses Nebeneinander vor sich gehen 5011 und ob eine Integration beider Vorgehens weisen Uberhaupt moglich ist, sind bisher unbeantwortete Fragen. Sollte uns also die Einordnung der EDA und die Abschatzung ihrer Bedeutung gelungen sein, so kommen wei tere und schwierigere Aufgaben auf uns zu, die grob umrissen werden konnen durch die Forderung: Schaffen von Konzepten fUr statistische Auswertungen, in deren Rahmen die EDA und die testende Statistik vertraglich sind. HierfUr ist zuerst ein detaillierter Aufgabenkatalog zu erstellen; einige der darin aufzunehmd~n Punkte mochte ich anfUhren: (a) Schaffen theoretischer Grundlagen fUr die EDA; vor allem Einigung Uber unmiBver- standl i che Formul i erungen der Aussagen exp lora ti ver ~·lethoden. (b) Auflistung der unzulassigen Verwendungsmoglichkeiten von EDA-Ergebnissen zum Verhindern von MiBbrauch (Gefahrenkatalog). (c) Aufstellen von Regeln fUr die simultane Verwendung von Ergebnissen der explora tiven und konfirmatorischen Analyse (nacheinander aus Pilot- und Hauptstudie ge wonnen; aus einer Studie mit Hilfe geeigneter Stichprobenplane (Data splitting, jack-knife-Methoden) gewonnen). (d) Klarung der EinflUsse vorgeschalteter EDA auf die Fehlerwahrscheinlichkeiten. Neben diesen Aufgaben treten andere Probleme, wie die Entwicklung weiterer Struktur erkennungsverfahren, vorerst in den Hintergrund. SchluB Ich hoffe, mir ist es gelungen, durch die Skizzierung der anstehenden Probleme deut lich zumachen, wie wichtig es war, auf einer Statistiker-Tagung in Deutschland dieses Thema anzugehen. Eine Tagung mit dieser Thematik war Uberfallig, da wir in unserem Land mit einem anerkannt hohen Standard der mathematischen Statistik einen Nachholbe darf in diesem Bereich haben. Dies zeigt ein Vergleich mit den angelsachsischen Lan dern, wo 'Data Analysis' seit langem als wichtiges Teilgebiet der Statistik akzeptiert ist, und dem franzosischen Sprachraum, wo dieses Gebiet unter der Bezeichnung 'Analyse des Donnees' seit Jahren eine B1Ute erlebt. t4eine heutige Philippika gegen die Ver teufelung der EDA und fUr ein gleichberechtigtes Nebeneinander der EDA und der testen den Statistik ist durch die Entwicklung in diesen Landern und durch die Arbeiten der Hauptvertreter dieser Vorgehensweise, wie TUKEY, COX, BENZECRI u.a. beeinfluBt. Auf (unspezifische) Literaturhinweise kann ich im Hinblick auf die diesem Kapitel beige fUgte Bibliographie wahl verzichten. Wi r werden heute di e angesprochenen Prob,l erne si cherl i ch ni cht losen konnen. Soll te durch die heutige Tagung die Divergenz zwischen den beiden Statistikergruppierungen verkleinert werden und eine Reihe von Statistikern angeregt werden, sich in Zukunft intensiver als bisher mit den angesprochenen Problemen zu beschaftigen, so ware dies der Erfolg, den wir anstreben. Ich hoffe, die Tagung kann ein Signal sein fUr Einlei tung einer fruchtbaren Entwicklung der explorativen Datenanalyse in unserm Lande. Adresse des Autors: s. Beitrag von VICTOR, BROSZIO und NAUMANN EXPLORATIVE DATENANALY SE H.H. BOCK Institut fUr Statistik und Wirtschaftsmathematik Technische Hochschule Aachen 1. EINLEITUNG "Die Tatigkeit des wissenschaft1ichen Forschers besteht darin, Satze oder Systeme von Satzen aufzuste11en und systematisch zu UberprUfen; in den empirischen Wissen schaften sind es insbesondere die Hypothesen. Theoriensysteme. die aufgestellt und an der Erfahrung. durch Beobachtung und Experiment UberprUft werden." Mit diesen Wor ten tei1t K. POPPER (1934) die wissenschaft1iche Tatigkeit in zwei mehr oder weniger' getrennte Bereiche ein: Hypothesenerstellung und Hypothesenilberprilfung. Jeder Stati ker und Biometriker, der andere Fachwissenschaft1er bei der Auswertung und Interpre tation von empirischen Daten berat, kennt diese beiden Kategorien und die damit ver bundenen Prob1eme. Er ist es insbesondere gewohnt. zur Uberprilfung von Hypothesen statistische Tests durchzufUhren: Dabei werden die Hypothesen in Form von Wahrschein1ichkeitsmode11en angesetzt und beziehen sich auf eine feste Grundgesamtheit (Population). Aus dem Verha1ten zura11iger (Tei1-)Stichproben wird dann auf die ganze Grundgesamtheit zu rUckgesch10ssen, wobei das Risiko einer Feh1entscheidung durch Vorgabe von Feh1er wahrschein1ichkeiten kontro11ierbar ist und durch geeignete MaBnahmen der Versuchs p1 anung reduziert werden kann ("konfi rmatori sche" oder "testende" Stati sti k, Infe II renzstatistik") . Auch die Erstellung von Hypothesen, das oben erstgenannte Problem, fa11t in den Ta tigkeitsbereich des Statistikers. Es ste11t sich ihm meist in der Art, daB - etwa nach Ab1auf einer medizinischen Studie - umfangreiches. empirisches Datenmateria1 vor1iegt und "nach verschiedenen Gesichtspunkten" (u.U. retrospektiv) ausgewertet werden soll. Der Statistiker so11 dann die Daten Ubersichtlich darstellen. wichtige von unwichtigen Einf1uBgroBen trennen und Abhangigkeit zwischen den einzelnen Varia b1en erkennen. Genere11 erwartet man. daB er a11e in den Daten vorhandenen, jedoch unbekannten Zusammenhange, Strukturen und Besonderheiten aufspUrt. quantitativ be schreibt und mathematisch-statistische Mode11e dafUr entwicke1t. Diese oft mit der Arbeit eines Detektivs verg1ichene, mode11bi1dende Tatigkeit wird a1s explorative statistik ("Datenana lyse") bezei chnet. Di e typi sch explorative Vorgehensweise be schrankt sich nicht auf die Anwendung mathematischer Verfahren, sondern benutzt pa-