Ziel von Datenkomprimierung ist es, die Nachricht einer Quelle mit möglichst wenigen Binärzeichen darzustellen.
Wir betrachten hier eine wertdiskrete Nachrichtenquelle mit dem Symbolvorrat {A, B, C, D} ⇒ Symbolumfang M=4 und den Auftrittswahrscheinlichkeiten
- pA=pB=pC=pD=1/4 (Teilaufgabe 1),
- pA=1/2,pB=1/4,pC=pD=1/8 (ab Teilaufgabe 2).
Vorausgesetzt wird, dass es zwischen den einzelnen Quellensymbolen keine statistischen Bindungen gibt.
Ein Maß für die Güte eines Komprimierungsverfahrens ist die mittlere Codewortlänge LM mit der Zusatzeinheit „bit/Quellensymbol”.
Vorgegeben sind drei Zuordnungen. Anzumerken ist:
- Jeder dieser Binärcodes C1, C2 und C3 ist für eine spezielle Quellenstatistik ausgelegt.
- Alle Codes sind präfixfrei und somit ohne weitere Angabe sofort decodierbar.
Hinweis:
- Die Aufgabe gehört zum Kapitel Allgemeine Beschreibung der Quellencodierung.
Fragebogen
Musterlösung
- LM=pA⋅LA+pB⋅LB+pC⋅LC+pD⋅LD.
Sind die vier Quellensymbole gleichwahrscheinlich (alle Wahrscheinlichkeiten genau 1/4), so kann dafür auch geschrieben werden:
- LM=1/4⋅(LA+LB+LC+LD).
- Code C1: LM=2.00_ bit/Quellensymbol,
- Code C2: LM=2.25_ bit/Quellensymbol
- Code C3: LM=2.25_ bit/Quellensymbol.
(2) Mit der Codetabelle C1 ergibt sich unabhängig von den Symbolwahrscheinlichkeiten stets die mittlere Codewortlänge LM=2_ bit/Quellensymbol.
Für die beiden anderen Codes erhält man:
- Code C2: LM=1/2⋅1+1/4⋅2+1/8⋅3+1/8⋅3=1.75_ bit/Quellensymbol,
- Code C3: LM=1/2⋅3+1/4⋅2+1/8⋅1+1/8⋅3=2.50_ bit/Quellensymbol.
Man erkennt aus dem Beispiel das Prinzip:
- Wahrscheinliche Symbole werden durch wenige Binärsymbole dargestellt, unwahrscheinliche durch mehr.
- Bei gleichwahrscheinlichen Symbolen wählt man am besten auch die Codewortlängen gleich.
(3) Richtig ist der Lösungsvorschlag 1:
- Der Code C1 mit einheitlicher Länge aller Codeworte ist präfixfrei,
- aber auch andere Codes können präfixfrei sein, zum Beispiel die Codes C2 und C3.
(4) Richtig ist der Lösungsvorschlag 1:
- Bereits aus „00” am Anfang erkennt man, dass der Code C2 hier nicht in Frage kommt, da sonst die Quellensymbolfolge mit „AA” beginnen müsste.
- Tatsächlich wurde der Code C1 verwendet.
(5) Richtig ist der Lösungsvorschlag 2:
- Der erste Lösungsvorschlag gibt dagegen die Quellensymbolfolge für den Code C2 an, wenn die Codesymbolfolge 001101111001100100111000 lauten würde.