Martin Werner Information und Codierung Aus dem Programm - ________- ---.. Informationstechnik Digitale Modulation von R. Klostermeyer Signalverarbeitung von M. Meyer Informationstechnik kompakt von O. Mildenberger (Hrsg.) Information und Codierung von M. Werner Signale und Systeme von M. Werner Bilddatenkompression von T. Strutz Kanalcodierung von H. Schneider-Obermann vievveg ____________________________ ~ Martin Werner Information und Codierung Grundlagen und Anwendungen Mit 119 Abbildungen und 49 Tabellen Herausgegeben von Otto Mildenberger ~ uni-script vleweg Die Deutsche Bibliothek - CIP-Einheitsaufnahme Ein Titeldatensatz fur diese Publikation ist bei Der Deutschen Bibliothek erhaitlich. Herausgeber: Prof. Dr.-Ing. Otto Mildenberger lehrte an der Fachhochschule Wies baden in den Fachbereichen Elektrotechnik und lnformatik 1. Auflage Juli 2002 Aile Rechte vorbehaiten © Friedr. Vieweg & Sohn Verlagsgesellschaft mbH, Braunschweig/Wiesbaden, 2002 Der Vieweg Verlag ist ein Unternehmen der Fachverlagsgruppe BertelsmannSpringer. www.vieweg.de Das Werk einschlieBlich aller seiner Teile ist urheberrechtlich geschiitzt. Jede Verwertung auBerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzu lassig und strafbar. Das gilt insbesondere fur Vervielfaltigun gen, Ubersetzungen, Mikroverfilmungen und die Einspeiche rung und Verarbeitung in elektronischen System en. Umschlaggestaltung: Ulrike Weigel, www.CorporateDesignGroup.de Gedruckt auf saurefreiem und chlorfrei gebleichtem Papier. ISBN 978-3-528-03951-6 ISBN 978-3-322-92887-0 (eBook) DOI 10.1007/978-3-322-92887-0 v Vorwort "Information" und "Codierung" sind zwei zentrale Begriffe der modernen Informationstechnik. Kenntnisse tiber das We sen der Information im technischen Sinne und tiber den Schutz der Information gegen Ubertragungsfehler gehoren deshalb heute zur Grundbildung von Ingenieu ren und Informatikern. "Information und Codierung" will diese Grundlagen in kompakter Form vorstellen. Das Buch basiert auf einer viersWndigen Lehrveranstaltung am Fachbereich Elektro technik und Informationstechnik der Fachhochschule Fulda im vierten Fachsemester. 1m ersten Teil stehen die Begriffe Information, Entropie und Redundanz im Mittelpunkt. Der Ansatz, dass Information Ungewissheit auflost, flihrt yom Zufallsexperiment zur Entropie. In formationsquellen werden zu Zufallsexperimenten und Information wird zur messbaren GroBe. Damit lassen sich flir die Optimierung des Informationsflusses in technischen Systemen wich tige Fragen formulieren und beantworten. Ein Schwerpunkt Iiegt dabei auf diskreten Markov Ketten, mit deren Hilfe Vorgange mit Gedachtnis beschrieben werden konnen. 1m zweiten Teil werden Methoden vorgestellt, wie die Information durch Hinzufligen von Prtif zeichen gegen Fehler bei der Ubertragung geschtitzt werden kann. Es werden zwei in den An wendungen weit verbreitete Codes vorgestellt, die zyklischen Codes und Faltungscodes. Erstere sind Bestandteil der Datentibertragung in lokalen Netzen und im Internet. Sie eignen sich be sonders zur Erkennung von fehlerhaften Datenpaketen, so dass eine erneute Ubertragung ange fordert werden kann. Faltungscodes finden ihre Anwendung bei der Ubertragung in stark ge storten KanaIen wie der Mobilfunktibertragung. Mit ihrer Hilfe konnen Ubertragungsfehler im Empfanger korrigiert werden. Das Buch ist so organisiert, dass die beiden Teile "Information" und "Codierung" unabhangig voneinander gelesen werden konnen. Der technische Informationsbegriff und die Codierung von Information bauen auf der Wahr scheinlichkeitsrechnung und der Algebra endlicher Korper auf, zwei Teilgebiete der Mathe matik mit denen viele Studierende erfahrungsgemaB weniger vertraut sind. Viele Jahre Lehrer fahrungen zeigen, dass die Schwierigkeiten eher in der ungewohnten Art des Stoffes liegen, als in den mathematischen Anforderungen. Aus diesem Grund wurde besonders Wert darauf gelegt, durch Beispiele und Aufgaben mit ausflihrlichen Losungen den Lernstoff verstandlich zu machen. In dies em Sinne wtinsche ich allen Leserinnen und Lesern ein offenes Herangehen an "Information und Codierung". Fulda, im Mai 2002 Martin Werner VII Inhaltsverzeichnis Teil I: INFORMATION UND QUELLENCODIERUNG Einfiihrung ............................................................................................................................ 1 2 Information, Entropie und Redundanz .............................................................................. 3 2.1 Informationsgehalt eines Zeichens .............................................................................. 3 2.2 Entropie und Redundanz ............................................................................................. 5 3 Quellencodierung fiir diskrete gediichtnislose Quellen ................................................... 12 3.1 Quellencodierungstheorem I .................................................................................... 12 3.2 Huffman-Codierung .................................................................................................. 17 4 Entropie von Verhundquellen ........................................................................................... 22 4.1 Wechselseitiger und bedingter Informationsgehait ................................................... 22 4.2 Verbundentropie und bedingte Entropie ...................................................................... 24 4.3 Zusammenfassung ........................................................................................................ 27 5 Stationiire diskrete Quellen mit Gediichtnis .................................................................... 29 5.1 Entropie .................................................................................................................... 29 5.2 Quellencodierungstheorem 2 .................................................................................... 32 5.3 Endliche Markov-Quellen ......................................................................................... 33 5.3.1 Zeitdiskrete Markov-Ketten ........................................................................ 34 5.3.2 Diskrete endliche Markov-Quelle mit Riickwirkung r ............................... .41 5.4 Entropie stationarer Markov-Quellen ....................................................................... 45 5.5 Codierung stationiirer Markov-Quellen .................................................................... 50 5.6 Zusammenfassung ..................................................................................................... 56 6 Datenkompression .............................................................................................................. 58 6.1 Einfiihrung ................................................................................................................ 58 6.2 Arithmetische Codierung .......................................................................................... 59 6.3 Lempel-Ziv-Codierung ............................................................................................. 62 7 Diskrete gediichtnislose Kaniile und Transinformation .................................................. 65 7.1 Einfiihrung ................................................................................................................ 65 7.2 Symmetrischer Binarkanal ........................................................................................ 65 7.3 Transinformation ...................................................................................................... 68 7.4 Zusammenfassung ..................................................................................................... 75 7.5 Kanalkapazitat .......................................................................................................... 78 7.5.1 Kanalkapazitiit des symmetrischen Binarkanals ......................................... 78 7.5.2 Kanalkapazitiit des symmetrischen Binarkanals mit Auslbschung .............. 79 7.6 KanaJcodierungstheorem fiir diskrete gedachtnislose Kaniile ................................... 83 8 Kontinuierliche Quellen und Kaniile ................................................................................ 84 8.1 Differentielle Entropie .............................................................................................. 84 8.2 Kanalkapazitiit und Shannon-Grenze ........................................................................ 88 8.3 Beispiele zu Abschnitt 8 ........................................................................................... 82 VIII Inhaltsverzeichnis Teil II: CODIERUNG ZUM SCHUTZ GEGEN UBERTRAGUNGSFEHLER Einfiihrung .......................................................................................................................... 97 2 Lineare Blockcodes ............................................................................................................ 99 2.1 Kana1codierung zum Schutz gegen Ubertragungsfehler ........................................... 99 2.2 Generatormatrix ...................................................................................................... 101 2.3 Syndrom-Decodierung ............................................................................................ 102 2.4 Eigenschaften linearer B1ockcodes ......................................................................... 106 2.4.1 Hamming-Distanz und Fehlerkorrekturvermiigen ..................................... 107 2.4.2 Perfekte Codes und Hamming-Grenze ...................................................... 109 2.4.3 Restfehlerwahrscheinlichkeit .................................................................... 109 2.4.4 Hamming-Codes ....................................................................................... 112 2.4.5 Erweiterte Hamming-Codes ...................................................................... 115 2.5 Anhang: Galois-Kiirper ........................................................................................... 116 3 Zyklische Codes ................................................................................................................ 118 3.1 Einfiihrung .............................................................................................................. 118 3.2 Definition und grundlegende Eigenschaften binarer zyklischer Codes ................... 119 3.3 Systematischer zyklischer Code .............................................................................. 124 3.4 Generatormatrix und Priifmatrix ............................................................................. 127 3.5 Encoder-Schaltung .................................................................................................. 131 3.6 Syndrom und Fehlerdetektion .................................. '" ............................................ 136 3.7 Fehlerbiindel ........................................................................................................... 140 3.8 Decoder-Schaltung: Meggitt-Decoder .................................................................... 142 3.9 Zyklische Hamming-Codes ..................................................................................... 145 3.10 Golay-Codes ........................................................................................................... 147 3.11 CRC-Codes ............................................................................................................. 148 3.12 Verkiirzte Codes ..................................................................................................... 149 3.13 Anwendungsbeispiel: ATM-Ubertragung ............................................................... 156 3.14 Ubungen zu Abschnitt 3 .......................................................................................... 159 4 Faltungscodes ................................................................................................................... 163 4.1 Einfiihrung .............................................................................................................. 163 4.2 Encoder-Schaltung und Impulsantwort ................................................................... 163 4.3 Polynomdarstellung ................................................................................................ 168 4.4 Zustandsbeschreibung ............................................................................................. 170 4.5 Struktur der Faltungscodes ...................................................................................... 176 4.6 Maximum-Likelihood-Decodierung ........................................................................ 185 4.7 Viterbi-Entzerrer ..................................................................................................... 196 4.8 Aufgaben zu Abschnitt 4 ......................................................................................... 200 Abkiirzungen und Formelzeichen ........................................................................................ 205 Literaturverzeichnis .............................................................................................................. 208 Sachwortverzeichnis .............................................................................................................. 211 TElL I: INFORMATION UND QUELLEN CODIERUNG 1 Einfiihrung Die Informationstheorie beschreibt mit Hilfe der Wahrscheinlichkeitsrechnung die Darstellung, Codierung und Ubertragung von Information im naturwissenschaftlich-technischen Sinne. Damit wird es moglich, den Fluss der Information in technischen Systemen zu analysieren und zu optimieren. Zur Abgrenzung des technischen Informationsbegriffes von unserem alltaglichen Verstandnis von Information helfen die in der Linguistik verwendeten Begriffe Syntax, Semantik und Prag matik. Vereinfacht gesprochen konnen die Syntax und Semantik als Daten im technischen Sinne verstanden werden. Dabei legt die Syntax die zugelassenen Zeichen und Zeichenfolgen fest. Die Semantik beschreibt die Bedeutung der verwendeten Zeichen und Zeichenfolgen. Die ei gentliche Bedeutung im Anwendungsfeld wird durch die Pragmatik beschrieben. Erst der Sinn zusammenhang der Pragmatik macht aus Daten, der technischen Information, Information im iiblichen Sinne. Letzteres unterstreicht auch das deutsche Wort flir Information die ,,Nach richt", eine "Mitteilung urn sich danach zu richten". • Syntax + Semantik ~ Daten (Information im technischen Sinn) • Daten + Pragmatik ~ Nachricht (Information flir "Menschen") Grundlage der weiteren UberJegungen ist ein Informationsbegriff der Information zu einer experimentell erfassbaren GroBe macht, wie wir es auch in der Physik voraussetzen. Claude E. Shannon 1 hat in "The Mathematical Theory of Communication" 1948 den AnstoB dazu gegeben [Sha48]. Darin definiert er den Informationsbegriff der modemen Informationstheorie und skizziert die begrifflichen Grundlagen der heutigen Kommunikationstechnik. Shannon flihrt als Beispiel die damals weit verbreiteten Lochkarten an. Eine Lochkarte mit N moglichen Positionen flir ein bzw. kein Loch kann genau 2N verschiedene Nachrichten aufneh men. Nimmt man zwei Lochkarten, so gibt es bereits 22N Moglichkeiten. Die Zahl der mogli chen Nachrichten steigt also quadratisch an. Andererseits sollte man erwarten, dass zwei Loch karten zusammen hochstens die doppelte Information speichem konnen als nur eine. Hier drangt sich die Logarithmusfunktion zur Beschreibung des Informationsgehaltes auf. Mit log 2N = N . log 2 und log 22N = 2N . log 2 ergibt sich genau die erwartete Verdoppelung des Zahlenwertes. I Claude E. Shannon: *1916/+2001; U.S.-amerikanischer Mathematiker und Ingenieur, grundJegende Arbeiten zur Informationstheorie. M. Werner, Information und Codierung © Friedr. Vieweg & Sohn Verlagsgesellschaft mbH, Braunschweig/Wiesbaden 2002 2 1 Einfiihrung Seine grundsatzlichen Uberlegungen bettet Shannon in das allgemeine Kommunikationsmodell in Bild 1-1 ein. Den Ausgangspunkt bildet die Informationsquelle (Information Source), die ihre Nachricht (Message) an den Sender (Transmitter) abgibt. Hierbei kann es sich urn eine Fol ge von Zeichen eines Textes, urn eine Funktion, wie der Spannungsverlauf an einem Mikrofon oder ein Femsehfarbbildsignal handeln. Der Sender passt die Nachricht auf die physikalischen Eigenschaften des Kanals (Channel) an und erzeugt das (Sende-) Signal. Der Kanal wird im Bild durch die Rauschquelle (Noise Source) dargestellt, die einen gewissen Einfluss auf das tibertragene Signal austibt. Das gestiirte Signal kommt als Empfangssignal (Received Signal) im Empfanger an. Der Empflinger hat die im Allgemeinen schwierigste Aufgabe. Er soil aus dem gestbrten Empfangssignal die Nachricht wiedergewinnen und in geeigneter Form an ihr Ziel (Destination) weiterleiten. INFORMATION SOURCE TRANSMITTER RECEIVER DESTINATION NOISE SOURCE Bild 1-1 Ubertragungsmodell nach Shannon ([Sha48], Fig. \) Der zweite groBe Themenkreis dieses Buches, die Codierung, kann im shannonschen Ubertra gungsmodell dem Sender zugeordnet werden. Unter Codierung wird die Abbildung einer Nach richt nach bekannten Regeln verstanden. Man unterscheidet grob zwischen Quellencodierung und Kana1codierung. Bei der Quellencodierung, beispielsweise dem Umsetzen eines Textes in den Morse-Code oder die Digitalisierung eines Audiosignals fUr die Speicherung auf CD-ROM, soli primar der Auf wand zur Darstellung der Nachricht reduziert werden. Es werden irrelevante und redundante Anteile entfemt. Man spricht dann von einer Datenkompression. 1m Gegensatz dazu vergrbBert die Kana1codierung den Ubertragungsaufwand. Durch zusatz liche Prtifzeichen lassen sich Ubertragungsfehler erkennen oder sogar reparieren. Dernzufolge unterscheidet man in den Anwendungen zwischen fehlerkorrigierenden und fehlererkennenden Verfahren. Beispielsweise waren die enormen Kapazitaten modemer Speichermedien wie CD ROM, DVD oder die PC-Festplatte ohne Kana1codierung nicht mbglich. Der zusatzliche Auf wand durch die Kana1codierung wird, da jetzt Schreib- und Lesefehler in gewissen Grenzen tolerierbar sind, durch die groBe "Schreibdichte" mehr als wett gemacht. Die einfiihrenden Uberlegungen machen deutlich, dass Information und Codierung zentrale Begriffe sind, ohne die die modeme Informationstechnik nicht denkbar waren. Die folgenden Abschnitte wollen deshalb beide 8egriffe mit Blick auf ihre Anwendungen vorstellen. 3 2 Information, Entropie und Redundanz 2.1 Informationsgehalt eines Zeichens Der Austausch von Information ist - obwohl nicht stofflich greifbar - allgegenwartig in unse rem Leben. Norbert Wiener', einer der Grunder der modemen Informationstheorie, drtickt die Bedeutung der Information so aus [Wie481: ,jnformation is information not matter or energy". Fur ihn tritt die Information als neues Element zu Stoff und Energie. So wichtig die Informa tion fUr uns Menschen auch ist, so schwierig ist es, den Begriff in eine naturwissenschaftlich technisch anwendbare Form zu fassen. Wir sagen beispielsweise "das ist eine wichtige Infor mation fUr mich" und schlieBen damit eine konkrete Situation mit ein. Diese subjektive Wahr nehmung ist fUr einen technischen Informationsbegriff ungeeignet. Wie physikalische GroBen, z. B. die Lange in Metem oder der Spannung in Volt, so sollte auch Information in der Technik als messbare GroBe eingefUhrt werden. Unsere Alltagserfahrung ist, dass der Empfang einer Information stets eine Ungewissheit auf lOst. Etwas was vorher offen war, wird durch sie geklart. Dies ist ahnlich einem Zufallsexperi ment. Bei einem Zufallsexperiment ist der Versuchsausgang offen. Erst das Versuchsergebnis lost die Ungewissheit auf. Wir gehen im Folgenden im Sinne der Informationstheorie vor. Zunachst definieren wir was unter einer (einfachen) Informationsquelle verstanden werden soli. Danach fassen wir den Be griff "Information" in eine messbare GroBe, urn anschlieBend mit ihrer Hilfe die Informations quelle zu charakterisieren. I Diskrete gediichtnislos';-Quelle Eine diskrete gedachtnislose Quelle X setzt in jedem Zeittakt ein Zeichen Xi aus dem Zeichen vorrat, dem Alphabet, X = (x], X2, ... , XN) mit der Wahrscheinlichkeit P(Xi) =P i abo Die Auswahl der Zeichen geschieht unabhangig voneinander. -------------------------------------------------~ Das einfachste Beispiel ist die gediichtnislose Biniirquelle mit dem Zeichenvorrat X = (x, = 0, X2 = 1) mit den Wahrscheinlichkeiten 0 S PI S 1u nd P2 = 1-PI' Die Auswahl der Zeichen er folgt unabhangig von den bereits gesendeten und noch zu sendenden Zeichen. Die symbolische Darstellung einer diskreten Quelle ist in Bild 2-1 zu sehen. Wir betrachten zunachst die einzelnen Zeichen. Es ent spricht der alltaglichen Erfahrung, dass haufig vorkom Bild 2-1 Symbolische Darstellung mende Ereignisse, also wahrscheinliche Ereignisse, uns einer Informationsquelle wenig Information !iefem. Als Beispiel sei die Nachricht mit Alphabet X I Norbert Wiener: * 1884/+ 1964; U.S.-amerikanischer Mathematiker, grundlegende Arbeiten zur Infor mationstheorie und Kybernetik. M. Werner, Information und Codierung © Friedr. Vieweg & Sohn Verlagsgesellschaft mbH, Braunschweig/Wiesbaden 2002