TEUBNER-TEXTE zur Informatik Band 25 G. Hotz Algorithmische Informationstheorie TEUBNER-TEXTE zur Informatik Herausgegeben von Prof. Dr. Johannes Buchmann, Darmstadt Prof. Dr. Udo Lipeck, Hannover Prof. Dr. Franz J. Rammig, Paderborn Prof. Dr. Gerd Wechsung, Jena Ais relativ junge Wissenschaft lebt die Informatik ganz wesentlich von aktuellen Beitragen. Viele Ideen und Konzepte werden in Originalarbeiten, Vorlesungsskripten und Konferenz berichten behandelt und sind damit nur einem eingeschrankten Leserkreis zuganglich. LehrbOcher stehen zwar zur VerfOgung, k6nnen aber wegen der schnellen Entwicklung der Wissenschaft oft nicht den neuesten Stand wiedergeben. Die Reihe "TEUBNER-TEXTE zur Informatik" soli ein Forum fOr Einzel- und Sammel beitrage zu aktuellen Themen aus dem gesamten Bereich der Informatik sein. Gedacht ist dabei insbesondere an herausragende Dissertationen und Habilitationsschriften, spezielle Vorlesungsskripten sowie wissenschaftlich aufbereitete AbschluBberichte bedeutender For schungsprojekte. Auf eine verstandliche Darstellung der theoretischen Fundierung und der Perspektiven fOr Anwendungen wird besonderer Wert gelegt. Das Programm der Reihe reicht von klassischen Themen aus neuen Blickwinkeln bis hin zur Beschreibung neuarti ger, noch nicht etablierter Verfahrensansatze. Dabei werden bewuBt eine gewisse Vorlau figkeit und Unvollstandigkeit der Stoffauswahl und Darstellung in Kauf genom men, weil so die Lebendigkeit und Originalitat von Vorlesungen und Forschungsseminaren beibehalten und weitergehende Studien angeregt und erleichtert werden k6nnen. TEUBNER-TEXTE erscheinen in deutscher oder englischer Sprache. Algorithmische I nformationstheorie Statistische In formationstheorie und Anwendungen auf algorithmische Fragestellungen Von Prof. Dr. Gunter Hotz Universitat des Saarlandes, Saarbrucken B. G. Teubner Verlagsgesellschaft Stuttgart· Leipzig 1997 Prof. Dr. Gunter Hotz Gunter Hotz wurde 1931 in Rommelhausen geboren. Er studierte von 1952 bis 1958 Mathematik und Physik in Frankfurt und G6ttingen, wo er 1958 in Mathematik promovierte. Nach dreijahriger Tiitigkeit als Entwicklungsingenieur im Bereich Rechnerentwicklung in der Firma AEG-Telefunken ging er als Stipendiat der Fritz-Thyssen-Stiftung an das von Johan nes D6rr geleitete Institut fOr Angewandte Mathematik der Universitat Saarbrucken. In Abwehr eines Rufes auf eine Professur fOr Numerische Mathematik an der Universitat Hamburg erhielt er 1969 eine Professur fOr Numerische Mathematik und Informatik an der Universitat des Saarlandes, die er auch heute noch innehat. 1m gleichen Jahr wurde er zum Grundungsvorsitzenden der Gesellschaft fOr Informatik (GI) gewahlt. Gedruckt auf chlorfrei gebleichtem Papier. Die Deutsche Bibliothek - CIP-Einheitsaufnahme Hotz, Gunter: Algorithmische Informationstheorie : statistische Informationstheorie und Anwendungen auf algorithmische Fragestellungen I von GOnter Hotz. - Stuttgart; Leipzig: Teubner, 1997 (Teubner-Texte zur Informatik ; Bd. 25) ISBN-13: 978-3-8154-2310-3 e-ISBN-13: 978-3-322-81036-6 DOl: 10.1007/978-3-322-81036-6 Das Werk einschlieBlich aller seiner Teile ist urheberrechtlich geschOtzt. Jede Verwertung auBerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulassig und strafbar. Das gilt besonders fOr Vervielfaltigungen, Ubersetzungen, Mikroverfilmungen und die Ein speicherung und Verarbeitung in elektronischen Systemen. © B. G. Teubner Verlagsgesellschaft Leipzig 1997 Satz: Druckhaus "Thomas MOntzer" GmbH, Bad Langensalza _ Umschlaggestaltung: E. Kretschmer, Leipzig Vorwort Das vorliegende Buch entha,lt den Tei11 meiner Vorlesung "Algorithmische In formationstheorie" im WS 1996/97. Dieser Teil beinhaltet eine Einfiihrung in die statistische Informationstheorie, die von Shannon 1948 begriindet wurde. Ich gebe dieses Buch heraus, da die Vorlesung auch den Anwendungen dieser Theorie auf algorithmische Probleme nachgeht. DaB die Entropie einer Quelle als untere Schranke fiir die Laufzeit von Suchprogrammen verwendet werden kann, ist seit 20 Jahren bekannt, ohne daB aber die Konzepte der Informati- 0Ilstheorie eine systematische Anwendung in dies em Bereich erfahren haben. So wurden Markovquellen im Zusammenhang mit effizienten Suchverfahren bei geordneten Schliisseln erstmals 1992 yom Autor diskutiert. Die Vorlesung geht auf die Frage der Gewinnung unterer Schranken fiir die mittlere Laufzeit von Algorithmen ein und versucht die Kodierungstheoreme zur Konstruktion effizienter Algorithmen zu nutzen. Frau Susanne Balzert hat das Manuskript in J5.'TEXgeschrieben. Herr Frank Schulz, der auch die Ubungen zu der Vorlesung betreute, und Herr Hein Rohrig haben das Manuskript gelesen und durch kritische Kommentare zu Verbesse rungen beigetragen. Ihnen und meinen kritischen Horern danke ich dafiir herz lich. Herrn Frank Schulz bin ich dariiber hinaus auch Dank schuldig fiir die Endredaktion des zuniichst nur als technischer Bericht vorliegenden Textes. Saarbriicken, Juli 1997 Giinter Hotz Inhalt Einleitung 9 1 Statistische Informationstheorie im FaIle diskreter ungestorter Kanale 15 1.1 Definition del' Entropie einer Quelle . . . . 15 1.2 Del' Kodierungssatz im storungsfreien Fall 24 1.3 Ordnungserhaltende Kodierungen . . . 32 1.4 Anwendungen des Kodierungstheorems . . 38 1.4.1 Suchprobleme............ 38 1.4.2 Unvollstandige Suchbaume bei gedachtnislosen Quellen 42 1.4.3 -Sortieren bei gedachtnisloser Quelle . . . . . . . . . .. 43 1.4.4 Suchen und Sortieren in Linearzeit bei Quellen (A, p) mit unbekanntem p . . . . . . . . . . . . . . . . . . .. 44 1.4.5 Abschatzung del' Laufzeit bei anderen Suchverfahren. 48 1.4.6 Die Entropie als untere Schranke fUr die GroBe von Schaltkreisen .................. . . . .. 49 1.4.7 Die Entropie als untere Schranke fiir Sortierverfahren . 50 1.4.8 Die Entropie als untere Schranke fiir beliebige Berech- nungen ................. . 53 1.4.9 Anwendungen in del' Kryptographie . . 60 1.5 Kritische Wiirdigung des Kodierungstheorems 62 2 Informationstheorie bei Markovketten 65 2.1 Quellen mit Gedachtnis ..... 65 2.2 Definition von Markovketten . . . . . . 67 2.3 Entropie von Markovprozessen ..... 77 2.4 Das Kodierungstheorem fUr Markovprozesse 79 2.5 Suchgraphen............... 83 2.6 c:-Zerlegungen von Markovquellen ... 84 2.7 c:-Uberdeckungen von Markovprozessen 87 8 Inhalt 2.8 Sortieren und andere Anwendungen 88 2.8.1 Sortieren ....... . 88 2.8.2 Andere Anwendungen ... 89 3 Die Kapazitat von diskreten Kanalen 95 3.1 Gestorte diskrete Kaniile ohne Gediichtnis 95 3.1.1 Definitionen ............ . 95 3.1.2 Kanalerweiterungen und Entscheidungsschemata . 99 3.2 Der Satz von Fano .................. . .104 3.3 Das Kodierungstheorem fUr Kaniile ohne Gediichtnis · 109 Ausblick 119 Historische Bemerkungen 123 Aufgaben 125 zu Kapitel1 .125 zu Kapitel 2 · 133 zu Kapitel 3 · 136 Literaturverzeichnis 141 Index 143 Einleitung Der Gegenstand unserer Theorie ist nicht die Frage "was ist Information", sondern die Frage "wie kann man Information messen", und auf welche Weise man von diesen Ma:f3en Gebrauch machen kann. Wir versuchen der Methode der Physik zu folgen, die auch nicht sagt, was Materie ist, sondern wie sich Materie in allen ihren Formen in ihren beob achtbaren Situationen verhiilt. Wenn hierliber vollstiindig Auskunft gegeben werden kann, dann wei:f3 man alles liber Materie Wi:f3bare. Wir haben eine intuitive Vorstellung von Information, der wir uns auf ver schiede Wei sen messend zu niihern versuchen. Diese Ansiitze wird man dann als erfolgreich bezeichnen konnen, wenn sie uns zu Aussagen flihren, die in konkreten Situationen hilfreich sind. Sei es, daB sie die Losung praktischer Probleme erleichtern, oder sei es, daB sie zu einem besseren Verstiindnis sich stellender Fragen fiihren. Wir werden dabei nicht aIle Facetten der intuitiven Vorstellung ausfiillen kon nen, aber der Erfolg der erst en Schritte wird uns ermutigen, den begonnenen Weg weiter zu gehen. Informationen nehmen wir mit allen unseren Sinnen auf. Wir reagieren auf Informationen in Abhiingigkeit davon, wie wir diese Informationen verstehen. Der Gebrauch des Wortes Information ist bei weitem nicht eindeutig. Informa tionen im Sinne von wahrgenommmenen Sinneseindrlicken bezeichnen wir oft auch als Liirm oder Rauschen oder Gefiimmer und verwenden die Bezeichnung Information nur dann, wenn wir die empfangenen Signale auch irgendwie ver stehend einordnen konnen. Nun, wie jeder weiB, kann man Dinge mehr oder weniger verstehen, so daB wir das Verstehen nicht zu einem Kriterium flir In formation machen werden, sondern hochstens versuchen werden, fiir den Strom von Signalen Ma:f3e zu entwickeln, die auch Aspekte des Verstehens zu erfassen vermogen. Verstehen hiingt sicher zusammen mit der Moglichkeit, Ordnungen im Datenstrom zu erkennen. Dieses Erkennen mag so weit gehen, daB wir aus den Anfangswerten eines solchen Datenstromes seinen weiteren Verlauf vor hersagen konnen. Wenn das der Fall ist, dann wird man, wenn man z.B. die- G. Hotz, Algorithmische Informationstheorie © B. G. Teubner Verlagsgesellschaft Leipzig 1997 10 Einleitung sen Datenstrom jemandem mitteilen mochte, nicht den ganzen Strom senden, sondern nur einen Anfangswert und das Gesetz, nach dem sich die folgenden Ereignisse berechnen lassen. Wir sehen, daB in diesem Sinne die Wissenschaf ten aIle an dem Problem der Datenreduktion arbeiten, d.h. im weitesten Sinne mit Aspekten zu tun haben, die uns im Rahmen einer Informationtheorie in teressieren werden. Die einfachste Form einer Informationsverarbeitung besteht in der Informa tionsvermittlung, d.h. im Transport von Information. Das ist ein Geschaft, das aIle Nachrichtendienste betreiben, indem sie uns beschriebenes Papier ins Haus bringen, oder Sendungen uber elektrische Leitungen oder auch durch Funk ubertragen. Informationen, die uns so zugestellt werden, haben einen verschiedenen Wert fUr den Vertreiber der Nachrichten, den einzelnen Empfanger und den Vermitt ler der Nachrichten. Eine Information, die viele Leute veranlaBt, eine Zeitung zu kaufen, hat fur den Verleger einen hohen Wert. Fur den Setzer des Zeitungs textes ist hinsichtlich seiner Tatigkeit nur die Lange des zugehorigen Textes wichtig. Einige Leute wird die N achricht nicht interessieren. Die Bewertung der Information wird also fur diese drei Kategorien von Leuten, die mit der Nachricht pU tun haben, sehr verschieden ausfallen. Fur den Vertreiber ergibt sie sich aus seinem geschatzten Verdienst, fur den Setzer aus der Arbeit des Setzens, der Wert der N achricht fur den Leser ist schwer einzuschatzen. Eine einfache Situation haben wir vor uns, wenn Texte, die etwa im Deutschen oder allgemeiner unter Verwendung eines endlichen Alphabetes niedergelegt wurden, in Texte in einem anderen Alphabet ubersetzt werden soIlen, und zwar so, daB aus dies en neuen Texten jeweils der ursprungliche Text rekon struiert werden kann, und mit der Nebenbedingung, daB der neue Text eine minimale Lange besitzt. Die Motivation fur diese Aufgabe kann die Abspei cherung der Texte in einem Rechner sein, des sen Speicherplatz teuer ist, oder die elektronische Ubertragung des Textes an einen anderen Ort. 1m letzten Fall werden die Kosten durch die Zeit bestimmt, in der der Text den Ubertra gungskanal in Anspruch nimmt. Enthalten Texte mehrfach gleiche Abschnitte, dann kann man die Ubersetzung fUr einen dieser Abschnitte vornehmen und dort, wo er auch stehen sollte, einen Verweis auf den in der Ubersetzung be reits vorhandenen Abschnitt anbringen. Das ist eine sehr einfache Methode der Textkomprimierung. Sie wird aber nur dann erfolgreich sein, wenn die Verweise kurzer sind, als die Textabschnitte, auf die verwiesen wird. Weiter muB man dar auf achten, daB hintereinander abgelegte Texte auch wieder als getrennte Texte erkennbar sind. Diese Eigenschaft wird fUr uns spater eine Rolle spie len. Anstelle der Verwendung von Verweisen, konnte man auch Kodierungen Einleitung 11 des Textes verwenden, die haufiger vorkommende Abschnitte kiirzer kodieren als langere. Diese Idee liegt dem Morsealphabet zugrunde und sie wurde von Shannon zur Grundlage seiner 1948 publizierten InJormationstheorie gemacht, die die Ubertragung von unendlichen Folgen von N achrichten iiber Kanale be handelt. In del' Theorie werden die Informationsstrome rein nach statistischen Gesichtspunkten klassifiziert und Kanale als nicht zuverlassig angesehen. Die Storungen werden ebenfalls rein statistisch beschrieben. Unter sehr allgemei nen Voraussetzungen garantiert diese Theorie eine zuverlassige Ubertragung del' Information iiber Kanale. Diese Theorie werden wir fiir einJache Kanale entwickeln. Wir diskutieren dann Moglichkeiten einer ejfizienten Kodierung und Dekodierung del' N achrichten und erhalten Anwendungen auf das Such problem in Datenbanken. Hierbei kommt del' algorithmische Aspekt erstmals ins Spiel. Shannon hat dem Aufwand, del' mit del' Kodierung und Dekodierung der Nachrichten verbunden ist, keine Beachtung geschenkt. Natiirlich wurden leistungsfahige Kodierungsverfahren entwickelt, die eine kontinuierliche Da teniibertragung iiber die Kanale gewahrleisten. Es wurde abel' die Komple xilat des Kodierens und Dekodierens nicht grundsatzlich mit dem Kodierungs theorem in Verb in dung gebracht. Geht man davon aus, daB die Aufgaben des Kodierens und Dekodierens von universellen Maschinen iibernommen werden, dann muB man die dazu erfor derliche Berechnungskomplexitat mit in Rechnung stellen. Das fiihrt zu zwei neuen Gesichtspunkten: Der erste besteht darin, den Kode fiir eine Nachricht als Programm fiir den Rechner zu interpretieren, der die Dekodierung vor nimmt. Damit verwandelt sich die Aufgabe, fUr eine N achricht eine kiirzeste Kodierung zu finden, in die Frage nach einem kiirzesten Programm, das diese Nachricht erzeugen kann. Was namlich konnen wir zur Komprimierung einer Nachricht besseres tun, als ein moglichst kurzes Programm anzugeben, das diese Nachricht hervorbringt? Diese Idee zusammen mit der Vorstellung, daB zufallige Folgen ihre eigene kiirzeste Beschreibung darstellen soUten, die sich aus del' statistischen Information zumindest nach einer Mitteilung ergibt,hat Kolmogoroff zu einer Fassung des lange offenen Problemes gefiihrt, namlich einer mathematisch befriedigenden Fassung des Konzeptes der zuJiilligen Fol gen. Unter dies em Aspekt verlangt also die optimale Kodierung einer Nachrich tenfolge bei Abwesenheit von Storungen die Ubersetzung diesel' Folge in eine zufallig erscheinenden Folge, womit natiirlich auch das Problem del' Kryptogra phie gelost ware, wenn del' effiziente Compiler del' Zielmaschine nicht bekannt ist. Offensichtlich kommen hier nun Komplexitatsfragen ins Spiel. Es mag sein,
Description: