Aufgaben:Aufgabe 1.7: Entropie natürlicher Texte: Unterschied zwischen den Versionen

Aktuelle Version vom 30. Juni 2021, 13:51 Uhr

Text mit Auslöschungen bzw. Fehlern

Anfang der 1950er Jahre schätzte Claude E. Shannon die Entropie $H$ der englischen Sprache mit einem bit pro Zeichen ab. Kurze Zeit später kam Karl Küpfmüller bei einer empirischen Untersuchung der deutschen Sprache auf einen Entropiewert von $H =1.3\ \rm bit/Zeichen$, also einen etwas größeren Wert. Die Ergebnisse von Shannon und Küpfmüller beruhen dabei interessanter Weise auf zwei völlig unterschiedlichen Methoden.

Die differierenden Ergebnisse lassen sich eher nicht mit den geringen Differenzen hinsichtlich des Symbolumfangs $M$ erklären:

Shannon ging von $26$ Buchstaben und dem Leerzeichen aus ⇒ $M = 27$.
Küpfmüller ging nur von $M = 26$ Buchstaben aus (also ohne Leerzeichen).

Beide machten keine Unterscheidung zwischen Groß– und Kleinschreibung.

Mit dieser Aufgabe soll gezeigt werden, wie sich

Auslöschungen („Erasures”) ⇒ man kennt den Ort eines Fehlers, bzw.
Zeichenfehler („Errors”) ⇒ es ist für den Leser nicht klar erkennbar, was falsch und was richtig ist,

auf die Verständlichkeit eines Textes auswirken. Unser Text beinhaltet dabei auch die typisch deutschen Buchstaben „ä”, „ö”, „ü” und „ß” sowie Ziffern und Interpunktion. Außerdem wird zwischen Groß– und Kleinschreibung unterschieden.

In der Abbildung ist ein Text, der von Küpfmüllers Vorgehensweise handelt, in sechs Blöcke der Länge zwischen $N = 197$ bis $N = 319$ aufgeteilt. Beschrieben ist die Überprüfung seiner ersten Analyse auf völlig anderem Wege, die zum Ergebnis $H =1.51\ \rm bit/Zeichen$ führte.

In den oberen fünf Blöcken erkennt man „Erasures” mit verschiedenen Auslöschungswahrscheinlichkeiten zwischen $10\%$ und $50\%$.
Im letzten Block sind „Zeichenfehler” mit $20$–prozentiger Verfälschungswahrscheinlichkeit eingefügt.

Der Einfluss solcher Zeichenfehler auf die Lesbarkeit eines Textes soll in der Teilaufgabe (4) verglichen werden mit dem zweiten (rot umrandeten) Block, für den die Wahrscheinlichkeit eines Erasures ebenfalls $20\%$ beträgt.

Hinweise:

Die Aufgabe gehört zum Kapitel Natürliche wertdiskrete Nachrichtenquellen.
Bezug genommen wird insbesondere auf die beiden Seiten

Entropieabschätzung nach Küpfmüller, sowie

Eine weitere Entropieabschätzung von Küpfmüller.

Für die relative Redundanz einer Folge gilt mit dem Entscheidungsgehalt $H_0$ und der Entropie $H$ gilt:

$$r = \frac{H_0 - H}{H_0}\hspace{0.05cm}.$$

Fragebogen

$M \ = \ $

$r \ = \ $

$\ \%$

	Eine solche Textdatei hinreichender Länge $(N \to \infty)$ könnte man mit $1.3 \cdot N$ Binärsymbolen darstellen.
	Eine solche Textdatei mit $N= 100\hspace{0.1cm}000$ Zeichen könnte man mit $130\hspace{0.1cm}000$ Binärsymbolen darstellen.
	Ein Leser kann den Text auch dann noch verstehen (oder zumindest erahnen), wenn $70\%$ der Zeichen ausgelöscht sind.

	$20\%$ Auslöschungen („Erasures”),
	eine Zeichenfehlerwahrscheinlichkeit von $20\%$.

Musterlösung

(1) Der Symbolumfang bei Küpfmüllers Untersuchungen war $\underline{M = 26}$, da er im Gegensatz zu Shannon das Leerzeichen zunächst nicht berücksichtigte.

Bei dem vorgegebenen deutschen Text dieser Aufgabe ist der Symbolumfang deutlich größer,

da hier auch die typisch deutschen Zeichen „ä”, „ö”, „ü” und „ß” vorkommen,
zwischen Klein– und Großschreibung unterschieden wird,
und zudem noch Ziffern und Interpunktionszeichen hinzukommen.

(2) Mit dem Entscheidungsgehalt $H_0 = \log_2 \ (26) \approx 4.67 \ \rm bit/Zeichen$ und der Entropie $H = 1.3\ \rm bit/Zeichen $ erhält man für die relative Redundanz:

$$r = \frac{H_0 - H}{H_0}= \frac{4.67 - 1.3}{4.67}\underline {\hspace{0.1cm}\approx 72.2\,\%}\hspace{0.05cm}.$$

(3) Richtig ist nur der erste Lösungsvorschlag:

Laut Küpfmüller benötigt man nur $1.3$ Binärzeichen pro Quellenzeichen.
Bei einer Datei der Länge $N$ würden also $1.3 \cdot N$ Binärsymbole ausreichen, allerdings nur dann, wenn die Quellensymbolfolge unendlich lang ist $(N \to \infty)$ und diese bestmöglich codiert wurde.
Dagegen besagt Küpfmüllers Ergebnis und die in der Teilaufgabe (2) errechnete relative Redundanz von mehr als $70\%$ nicht, dass ein Leser den Text noch verstehen kann, wenn $70\%$ der Zeichen ausgelöscht wurden.
Ein solcher Text ist weder unendlich lang, noch wurde er vorher optimal codiert.

(4) Richtig ist die Aussage 2:

Testen Sie es selbst: Der zweite Block der Grafik auf der Angabenseite ist leichter zu entschlüsseln als der letzte Block, weil man weiß, wo Fehler sind.
Wenn Sie es weiter versuchen wollen: Für den unteren Block (F) wurde genau die gleiche Zeichenfehlerfolge wie für Block (B) verwendet, das heißt, Fehler gibt es bei den Zeichen $6$, $35$, $37$, usw.

Originaltexte

Abschließend wird der Originaltext angegeben, der auf der Angabenseite nur durch Auslöschungen (Erasures) oder echte Zeichenfehler verfälscht wiedergegeben ist.

@@ Zeile 2: / Zeile 2: @@
 }}
-[[Datei:Inf_A_1_7_vers2.png|right|Text mit Auslöschungen bzw. Fehlern]]
+[[Datei:Inf_A_1_7_v2.png|right|frame|Text mit Auslöschungen bzw. Fehlern]]
-Anfang der 1950er Jahre schätzte [https://de.wikipedia.org/wiki/Claude_Shannon Claude E. Shannon] die Entropie $H$ der englischen Sprache mit einem bit pro Zeichen ab. Kurze Zeit später kam [https://de.wikipedia.org/wiki/Karl_K%C3%BCpfm%C3%BCller Karl Küpfmüller] bei einer empirischen Untersuchung der deutschen Sprache auf einen Entropiewert von $H =1.3\ \rm bit/Zeichen$, also einen etwas größeren Wert. Die Ergebnisse von Shannon und Küpfmüller beruhen dabei interessanter Weise auf zwei völlig unterschiedlichen Methoden.
+Anfang der 1950er Jahre schätzte&nbsp; [https://de.wikipedia.org/wiki/Claude_Shannon Claude E. Shannon]&nbsp; die Entropie&nbsp; $H$&nbsp; der englischen Sprache mit einem bit pro Zeichen ab.&nbsp; Kurze Zeit später kam&nbsp; [https://de.wikipedia.org/wiki/Karl_K%C3%BCpfm%C3%BCller Karl Küpfmüller]&nbsp; bei einer empirischen Untersuchung der deutschen Sprache auf einen Entropiewert von&nbsp; $H =1.3\ \rm bit/Zeichen$, also einen etwas größeren Wert.&nbsp; Die Ergebnisse von Shannon und Küpfmüller beruhen dabei interessanter Weise auf zwei völlig unterschiedlichen Methoden.
-Die differierenden Ergebnisse lassen sich eher nicht mit den geringen Differenzen hinsichtlich des Symbolumfangs $M$ erklären:
+Die differierenden Ergebnisse lassen sich eher nicht mit den geringen Differenzen hinsichtlich des Symbolumfangs&nbsp; $M$&nbsp; erklären:
-* Shannon ging von 26 Buchstaben und dem Leerzeichen aus &nbsp;&#8658;&nbsp;  $M = 27$.
+* Shannon ging von&nbsp; $26$&nbsp; Buchstaben und dem Leerzeichen aus &nbsp;&#8658;&nbsp;  $M = 27$.
-* Küpfmüller ging dagegen von $M = 267$ Buchstaben aus, ebenfalls ohne zwischen Groß&ndash; und Kleinschreibung zu unterscheiden.
+* Küpfmüller ging nur von&nbsp; $M = 26$&nbsp; Buchstaben aus&nbsp; (also ohne Leerzeichen).
+Beide machten keine Unterscheidung zwischen Groß&ndash; und Kleinschreibung.
 Mit dieser Aufgabe soll gezeigt werden, wie sich
-* Auslöschungen (<i>Erasures</i>) &#8658; man kennt den Ort eines Fehlers,
+* Auslöschungen&nbsp; (&bdquo;Erasures&rdquo;) &nbsp; &#8658; &nbsp; man kennt den Ort eines Fehlers, bzw.
-* Zeichenfehler  (<i>Errors</i>) &#8658; es ist nicht offensichtlich, was falsch und was richtig ist,
+* Zeichenfehler&nbsp;  (&bdquo;Errors&rdquo;) &nbsp; &#8658; &nbsp; es ist für den Leser nicht klar erkennbar, was falsch und was richtig ist,
+auf die  Verständlichkeit eines Textes auswirken.&nbsp; Unser Text beinhaltet dabei auch die typisch deutschen Buchstaben &bdquo;ä&rdquo;,&nbsp; &bdquo;ö&rdquo;,&nbsp; &bdquo;ü&rdquo;&nbsp; und&nbsp; &bdquo;ß&rdquo;&nbsp; sowie Ziffern und Interpunktion. Außerdem wird zwischen Groß&ndash; und Kleinschreibung unterschieden.
-auf die  Verständlichkeit eines Textes auswirken. Unser Text beinhaltet dabei auch die typisch deutschen Buchstaben &bdquo;ä&rdquo;, &bdquo;ö&rdquo;, &bdquo;ü&rdquo; und &bdquo;ß&rdquo; sowie Ziffern und Interpunktion. Außerdem wird zwischen Groß&ndash; und Kleinschreibung unterschieden.
+In der Abbildung ist ein Text, der von Küpfmüllers Vorgehensweise handelt, in sechs Blöcke der Länge zwischen&nbsp; $N = 197$&nbsp; bis&nbsp; $N = 319$&nbsp; aufgeteilt.&nbsp; Beschrieben ist die Überprüfung seiner&nbsp; [[Informationstheorie/Natürliche_wertdiskrete_Nachrichtenquellen#Eine_weitere_Entropieabsch.C3.A4tzung_von_K.C3.BCpfm.C3.BCller|ersten Analyse]]&nbsp; auf völlig anderem Wege, die zum Ergebnis&nbsp;  $H =1.51\ \rm bit/Zeichen$&nbsp; führte.
+* In den oberen fünf Blöcken erkennt man &bdquo;Erasures&rdquo; mit verschiedenen Auslöschungswahrscheinlichkeiten zwischen&nbsp; $10\%$&nbsp; und&nbsp; $50\%$.
+* Im letzten Block sind &bdquo;Zeichenfehler&rdquo; mit&nbsp; $20$&ndash;prozentiger Verfälschungswahrscheinlichkeit eingefügt.
+Der Einfluss solcher Zeichenfehler auf die Lesbarkeit eines Textes soll in der Teilaufgabe&nbsp; '''(4)'''&nbsp; verglichen werden mit dem zweiten (rot umrandeten) Block, für den die Wahrscheinlichkeit eines Erasures ebenfalls&nbsp; $20\%$&nbsp; beträgt.
-In der Abbildung ist dieser Text, der von Küpfmüllers Vorgehensweise handelt, in sechs Blöcke der Länge zwischen $N = 197$ bis $N = 319$ aufgeteilt. Beschrieben ist die Überprüfung seiner [[Informationstheorie/Natürliche_wertdiskrete_Nachrichtenquellen#Eine_weitere_Entropieabsch.C3.A4tzung_von_K.C3.BCpfm.C3.BCller|ersten Analyse]] auf völlig anderem Wege, die zum Ergebnis  $H =1.51\ \rm bit/Zeichen$ führte.
-* In den oberen fünf Blöcken erkennt man <i>Erasures</i> mit verschiedenen Auslöschwahrscheinlichkeiten zwischen 10% und 50%.
-* Im letzten Block sind <i>Zeichenfehler</i> mit 20&ndash;prozentiger Verfälschungswahrscheinlichkeit eingefügt.
-Der Einfluss solcher Zeichenfehler auf die Lesbarkeit eines Textes soll in der Teilaufgabe (4) verglichen werden mit dem zweiten (rot umrandeten) Block, für den die Wahrscheinlichkeit eines Erasures ebenfalls 20% beträgt.
 ''Hinweise:''
-*Die Aufgabe gehört zum  Kapitel [[Informationstheorie/Nachrichtenquellen_mit_Gedächtnis|Nachrichtenquellen mit Gedächtnis]].
+*Die Aufgabe gehört zum  Kapitel&nbsp; [[Informationstheorie/Natürliche_wertdiskrete_Nachrichtenquellen|Natürliche wertdiskrete Nachrichtenquellen]].
-*Bezug genommen wird insbesondere auf die beiden Seiten [[Informationstheorie/Natürliche_wertdiskrete_Nachrichtenquellen#Entropieabsch.C3.A4tzung_nach_K.C3.BCpfm.C3.BCller|Entropieabschätzung nach Küpfmüller]] sowie   [[Informationstheorie/Natürliche_wertdiskrete_Nachrichtenquellen#Eine_weitere_Entropieabsch.C3.A4tzung_von_K.C3.BCpfm.C3.BCller|Eine weitere Entropieabschätzung von Küpfmüller]].
+*Bezug genommen wird insbesondere auf die beiden Seiten
+::[[Informationstheorie/Natürliche_wertdiskrete_Nachrichtenquellen#Entropieabsch.C3.A4tzung_nach_K.C3.BCpfm.C3.BCller|Entropieabschätzung nach Küpfmüller]],&nbsp; sowie&nbsp;
+::[[Informationstheorie/Natürliche_wertdiskrete_Nachrichtenquellen#Eine_weitere_Entropieabsch.C3.A4tzung_von_K.C3.BCpfm.C3.BCller|Eine weitere Entropieabschätzung von Küpfmüller]].
-*Für die ''relative Redundanz'' einer Folge gilt mit dem Entscheidungsgehalt $H_0$ und der Entropie $H$ gilt:
+*Für die&nbsp; '''relative Redundanz'''&nbsp; einer Folge gilt mit dem Entscheidungsgehalt&nbsp; $H_0$&nbsp; und der Entropie&nbsp; $H$&nbsp; gilt:
 :$$r = \frac{H_0 - H}{H_0}\hspace{0.05cm}.$$
@@ Zeile 38: / Zeile 48: @@
 <quiz display=simple>
-{Von welchem Symbolumfang $M$ ging Küpfmüller aus?
+{Von welchem Symbolumfang&nbsp; $M$&nbsp; ging Küpfmüller aus?
 |type="{}"}
 $M \ = \ $ { 26 }
-{Welche relative Redundanz $r$ ergibt sich aus Küpfmüllers Entropiewert?
+{Welche relative Redundanz&nbsp; $r$&nbsp; ergibt sich aus Küpfmüllers Entropiewert?
 |type="{}"}
-$r \ = \ $ { 72.3 3% } $\ \%$
+$r \ = \ $ { 72.2 3% } $\ \%$
-{Wie lässt sich das Ergebnis der Teilaufgabe (2) interpretieren? Gehen Sie jeweils von einer Textdatei mit $M = 26$ unterschiedlichen Zeichen aus.
+{Wie lässt sich das Ergebnis der Teilaufgabe&nbsp; '''(2)'''&nbsp; interpretieren?&nbsp; Gehen Sie jeweils von einer Textdatei mit&nbsp; $M = 26$&nbsp; unterschiedlichen Zeichen aus.
 |type="[]"}
-+ Eine solche Textdatei hinreichender Länge ($N \to \infty$) könnte man mit $1.3 \cdot N$ Binärsymbolen darstellen.
++ Eine solche Textdatei hinreichender Länge&nbsp; $(N \to \infty)$&nbsp; könnte man mit&nbsp; $1.3 \cdot N$&nbsp; Binärsymbolen darstellen.
-- Eine solche Textdatei  mit $N= 100000$ Zeichen könnte man mit $130000$ Binärsymbolen darstellen.
+- Eine solche Textdatei  mit&nbsp; $N= 100\hspace{0.1cm}000$&nbsp; Zeichen könnte man mit&nbsp; $130\hspace{0.1cm}000$&nbsp; Binärsymbolen darstellen.
-- Ein Leser kann den Text auch dann noch verstehen (oder zumindest erahnen), wenn 70% der Zeichen ausgelöscht sind.
+- Ein Leser kann den Text auch dann noch verstehen (oder zumindest erahnen), wenn&nbsp; $70\%$&nbsp; der Zeichen ausgelöscht sind.
 {Was erschwert die Verständlichkeit eines Textes mehr?
-|type="[]"}
+|type="()"}
-- 20% Auslöschungen (<i>Erasures</i>),
+- $20\%$&nbsp; Auslöschungen (&bdquo;Erasures&rdquo;),
-+ eine Zeichenfehlerwahrscheinlichkeit von 20%.
++ eine Zeichenfehlerwahrscheinlichkeit von&nbsp; $20\%$.
@@ Zeile 66: / Zeile 76: @@
 ===Musterlösung===
 {{ML-Kopf}}
-'''(1)'''&nbsp; Der Symbolumfang bei Küpfmüllers Untersuchungen war $\underline{M = 26}$, da er im Gegensatz zu Shannon das Leerzeichen zunächst nicht berücksichtigte. Bei dem vorgegebenen deutschen Text dieser Aufgabe ist der Symbolumfang deutlich größer,
+'''(1)'''&nbsp; Der Symbolumfang bei Küpfmüllers Untersuchungen war&nbsp; $\underline{M = 26}$,&nbsp; da er im Gegensatz zu Shannon das Leerzeichen zunächst nicht berücksichtigte.
-* da hier auch die typisch deutschen Zeichen &bdquo;ä&rdquo;, &bdquo;ö&rdquo;, &bdquo;ü&rdquo; und &bdquo;ß&rdquo; vorkommen,
+Bei dem vorgegebenen deutschen Text dieser Aufgabe ist der Symbolumfang deutlich größer,
+* da hier auch die typisch deutschen Zeichen &bdquo;ä&rdquo;,&nbsp; &bdquo;ö&rdquo;,&nbsp; &bdquo;ü&rdquo;&nbsp; und&nbsp; &bdquo;ß&rdquo;&nbsp; vorkommen,
 * zwischen Klein&ndash; und Großschreibung unterschieden wird,
 * und zudem noch Ziffern und Interpunktionszeichen hinzukommen.
-'''(2)'''&nbsp; Mit dem Entscheidungsgehalt $H_0 = \log_2 \ (31) \approx 4.7 \ \rm bit/Zeichen$ und der Entropie $H = 1.3\ \rm bit/Zeichen $ erhält man für die relative Redundanz:
-:$$r = \frac{H_0 - H}{H_0}= \frac{4.7 - 1.3}{4.7}\underline {\hspace{0.1cm}\approx 72.3\,\%}\hspace{0.05cm}.$$
+'''(2)'''&nbsp; Mit dem Entscheidungsgehalt&nbsp; $H_0 = \log_2 \ (26) \approx 4.67 \ \rm bit/Zeichen$&nbsp; und der Entropie&nbsp; $H = 1.3\ \rm bit/Zeichen $&nbsp; erhält man für die relative Redundanz:
+:$$r = \frac{H_0 - H}{H_0}= \frac{4.67 - 1.3}{4.67}\underline {\hspace{0.1cm}\approx 72.2\,\%}\hspace{0.05cm}.$$
 '''(3)'''&nbsp; Richtig ist nur der <u>erste Lösungsvorschlag</u>:
-*Laut Küpfmüller benötigt man nur 1.3 Binärzeichen pro Quellenzeichen. Bei einer Datei der Länge $N$ würden also $1.3 \cdot N$ Binärsymbole ausreichen, allerdings nur dann, wenn die Quellensymbolfolge unendlich lang ist ($N \to \infty$) und diese bestmöglich codiert wurde.
+*Laut Küpfmüller benötigt man nur&nbsp; $1.3$&nbsp; Binärzeichen pro Quellenzeichen.
-*Dagegen besagt Küpfmüllers Ergebnis und die in der Teilaufgabe (2) errechnete relative Redundanz von mehr als 70% nicht, dass ein Leser den Text noch verstehen kann, wenn 70% der Zeichen ausgelöscht sind.
+*Bei einer Datei der Länge&nbsp; $N$&nbsp; würden also&nbsp; $1.3 \cdot N$&nbsp; Binärsymbole ausreichen, allerdings nur dann, wenn die Quellensymbolfolge unendlich lang ist&nbsp; $(N \to \infty)$&nbsp; und diese bestmöglich codiert wurde.
-*Ein solcher Text ist nie unendlich lang, noch wurde er vorher optimal codiert.
+*Dagegen besagt Küpfmüllers Ergebnis und die in der Teilaufgabe&nbsp; '''(2)'''&nbsp; errechnete relative Redundanz von mehr als&nbsp; $70\%$ nicht, dass ein Leser den Text noch verstehen kann, wenn&nbsp; $70\%$&nbsp; der Zeichen ausgelöscht wurden.
+*Ein solcher Text ist weder unendlich lang, noch wurde er vorher optimal codiert.
+'''(4)'''&nbsp; Richtig ist die <u>Aussage 2</u>:
+*Testen Sie es selbst: &nbsp; Der zweite Block der Grafik auf der Angabenseite ist leichter zu entschlüsseln als der letzte Block, weil man weiß, wo Fehler sind.
+*Wenn Sie es weiter versuchen wollen: &nbsp; Für den unteren Block&nbsp; '''(F)'''&nbsp; wurde genau die gleiche Zeichenfehlerfolge wie für Block&nbsp; '''(B)'''&nbsp; verwendet, das heißt, Fehler gibt es bei den Zeichen&nbsp; $6$,&nbsp; $35$,&nbsp; $37$,&nbsp; usw.
-'''(4)'''&nbsp; Richtig ist <u>Aussage 2</u>:
-*Testen Sie es selbst: Der zweite Block der Grafik auf der Angabenseite ist leichter zu entschlüsseln als der letzte Block, weil man weiß, wo es Fehler gibt.
-*Wenn Sie es weiter versuchen wollen: Für den unteren Block (F) wurde genau die gleiche Zeichenfehlerfolge wie für Block (B) verwendet, das heißt, Fehler gibt es bei den Zeichen 6, 35, 37, usw..
+[[Datei:Inf_A_1_7d_v2.png|right|frame|Originaltexte]]
+Abschließend wird der Originaltext angegeben, der auf der Angabenseite nur durch Auslöschungen (<i>Erasures</i>) oder echte Zeichenfehler verfälscht wiedergegeben ist.
-Abschließend wird noch der Originaltext angegeben, der auf der Angabenseite nur durch Auslöschungen (<i>Erasures</i>) oder echte Zeichenfehler verfälscht wiedergegeben ist.
-[[Datei:Inf_A_1_7d_vers2.png|Originaltexte]]
 {{ML-Fuß}}