Informationstheorie/Natürliche wertdiskrete Nachrichtenquellen: Unterschied zwischen den Versionen

Aus LNTwww
Wechseln zu:Navigation, Suche
 
(14 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 8: Zeile 8:
 
==Schwierigkeiten bei der Entropiebestimmung  ==
 
==Schwierigkeiten bei der Entropiebestimmung  ==
 
<br>
 
<br>
Bisher haben wir uns ausschließlich mit künstlich erzeugten Symbolfolgen beschäftigt. Nun betrachten wir geschriebene Texte. Ein solcher Text kann als eine natürliche wertdiskrete Nachrichtenquelle aufgefasst werden, die natürlich auch informationstheoretisch analysiert werden kann, indem man ihre Entropie ermittelt.
+
Bisher haben wir uns ausschließlich mit künstlich erzeugten Symbolfolgen beschäftigt.&nbsp; Nun betrachten wir geschriebene Texte.&nbsp; Ein solcher Text kann als eine natürliche wertdiskrete Nachrichtenquelle aufgefasst werden, die natürlich auch informationstheoretisch analysiert werden kann, indem man ihre Entropie ermittelt.
  
Natürliche Texte werden auch in heutiger Zeit (2011) noch oft mit dem 8 Bit–Zeichensatz nach ANSI (''American National Standard Institute'') dargestellt, obwohl es etliche „modernere” Codierungen gibt. Die $M$ = $2^8 = 256$ ANSI–Zeichen sind dabei wie folgt belegt:
+
Natürliche Texte werden auch in heutiger Zeit (2011) noch oft mit dem 8 Bit–Zeichensatz nach ANSI&nbsp; ("American National Standard Institute")&nbsp; dargestellt, obwohl es etliche „modernere” Codierungen gibt.&nbsp;
* '''Nr. 0 bis 31''': nicht druck– und darstellbare Steuerbefehle,
 
* '''Nr. 32 bis 127''': identisch mit den Zeichen des 7 Bit–ASCII–Codes,
 
* '''Nr. 128 bis 159''': weitere Steuerzeichen bzw. Alphanumerikzeichen für Windows,
 
* '''Nr. 160 bis 255''': identisch mit Unicode–Charts.
 
  
 +
Die&nbsp; $M = 2^8 = 256$&nbsp; ANSI–Zeichen sind dabei wie folgt belegt:
 +
* '''Nr.&nbsp; 0 &nbsp; bis &nbsp; 31''': &nbsp; nicht druck– und darstellbare Steuerbefehle,
 +
* '''Nr.&nbsp; 32 &nbsp; bis &nbsp;127''': &nbsp; identisch mit den Zeichen des 7 Bit–ASCII–Codes,
 +
* '''Nr.&nbsp; 128 &nbsp; bis 159''': &nbsp; weitere Steuerzeichen bzw. Alphanumerikzeichen für Windows,
 +
* '''Nr.&nbsp; 160 &nbsp; bis &nbsp; 255''': &nbsp; identisch mit den  Unicode–Charts.
  
Theoretisch könnte man auch hier die Entropie entsprechend der Vorgehensweise [[Informationstheorie/Nachrichtenquellen_mit_Gedächtnis#Verallgemeinerung_auf_k.E2.80.93Tupel_und_Grenz.C3.BCbergang|im letzten Kapitel]] als den Grenzübergang der Entropienäherung $H_k$ für $k \to \infty$ ermitteln. Praktisch ergeben sich aber nach dieser Rezeptur unüberwindbare numerische Grenzen:
 
*Bereits für die Entropienäherung $H_2$ gibt es $M^2 = 256^2 = 65536$ mögliche Zweiertupel. Für die Berechnung sind somit ebenso viele Speicherplätze (in Byte) erforderlich. Geht man davon aus, dass man für eine ausreichend sichere Statistik im Mittel 100 Entsprechungen pro Tupel benötigt, so sollte die Länge der Quellensymbolfolge bereits $N > 6.5 · 10^6$ sein.
 
*Die Anzahl der möglichen Dreiertupel ist $M^3 > 16 · 10^7$ und damit ist die erforderliche Quellensymbollänge schon  $N > 1.6 · 10^9$. Dies entspricht bei $42$ Zeilen pro Seite und $80$ Zeichen pro Zeile einem Buch mit etwa $500\hspace{0.1cm}000$ Seiten.
 
*Bei einem natürlichen Text reichen die statistischen Bindungen aber sehr viel weiter als zwei oder drei Zeichen. Küpfmüller gibt für die deutsche Sprache einen Wert von $100$ an. Zur Ermittlung der 100. Entropienäherung benötigt man aber $2^{800}$ ≈ $10^{240}$ Häufigkeiten und für die gesicherte Statistik nochmals um den Faktor $100$ mehr Zeichen.
 
  
 +
Theoretisch könnte man auch hier die Entropie entsprechend der Vorgehensweise&nbsp; [[Informationstheorie/Nachrichtenquellen_mit_Gedächtnis#Verallgemeinerung_auf_.7F.27.22.60UNIQ-MathJax109-QINU.60.22.27.7F.E2.80.93Tupel_und_Grenz.C3.BCbergang|im letzten Kapitel]]&nbsp; als den Grenzübergang der Entropienäherung&nbsp; $H_k$&nbsp; für&nbsp; $k \to \infty$&nbsp; ermitteln.&nbsp; Praktisch ergeben sich aber nach dieser Rezeptur unüberwindbare numerische Grenzen:
 +
*Bereits für die Entropienäherung&nbsp; $H_2$&nbsp; gibt es&nbsp; $M^2 = 256^2 = 65\hspace{0.1cm}536$&nbsp; mögliche Zweiertupel.&nbsp; Für die Berechnung sind somit ebenso viele Speicherplätze (in Byte) erforderlich.&nbsp; Geht man davon aus, dass man für eine ausreichend sichere Statistik im Mittel&nbsp; $100$&nbsp; Entsprechungen pro Tupel benötigt, so sollte die Länge der Quellensymbolfolge bereits&nbsp; $N > 6.5 · 10^6$&nbsp; sein.
 +
*Die Anzahl der möglichen Dreiertupel ist&nbsp; $M^3 > 16 · 10^7$&nbsp; und damit ist die erforderliche Quellensymbollänge schon&nbsp;  $N > 1.6 · 10^9$.&nbsp; Dies entspricht bei&nbsp; $42$&nbsp; Zeilen pro Seite und&nbsp; $80$&nbsp; Zeichen pro Zeile einem Buch mit etwa&nbsp; $500\hspace{0.1cm}000$&nbsp; Seiten.
 +
*Bei einem natürlichen Text reichen die statistischen Bindungen aber sehr viel weiter als über zwei oder drei Zeichen.&nbsp; Küpfmüller gibt für die deutsche Sprache einen Wert von&nbsp; $100$&nbsp; an.&nbsp; Zur Ermittlung der 100. Entropienäherung benötigt man aber&nbsp; $2^{800}\approx10^{240}$&nbsp; Häufigkeiten und für die gesicherte Statistik nochmals um den Faktor&nbsp; $100$&nbsp; mehr Zeichen.
  
Eine berechtigte Frage ist deshalb: Wie hat [https://de.wikipedia.org/wiki/Karl_K%C3%BCpfm%C3%BCller Karl Küpfmüller] im Jahre 1954 die Entropie der deutschen Sprache ermittelt, und vor ihm schon [https://de.wikipedia.org/wiki/Claude_Shannon Claude Elwood Shannon] die Entropie der englischen Sprache? Eines sei vorweg verraten: Nicht mit dem oben beschriebenen Ansatz.  
+
 
 +
Eine berechtigte Frage ist deshalb: &nbsp; Wie hat&nbsp; [https://de.wikipedia.org/wiki/Karl_K%C3%BCpfm%C3%BCller Karl Küpfmüller]&nbsp; im Jahre 1954 die Entropie der deutschen Sprache ermittelt, und vor ihm schon&nbsp; [https://de.wikipedia.org/wiki/Claude_Shannon Claude Elwood Shannon]&nbsp; die Entropie der englischen Sprache?&nbsp; Eines sei vorweg verraten: &nbsp; Nicht mit dem oben beschriebenen Ansatz.  
  
  
 
==Entropieabschätzung nach Küpfmüller  ==
 
==Entropieabschätzung nach Küpfmüller  ==
 
<br>
 
<br>
Karl Küpfmüller hat die Entropie von deutschen Texten untersucht. Er geht bei seiner  in [Küpf54]<ref name ='Küpf54'>Küpfmüller, K.: ''Die Entropie der deutschen Sprache''. Fernmeldetechnische Zeitung 7, 1954, S. 265-272.</ref>  veröffentlichten Abschätzung von folgenden Voraussetzungen aus:
+
Karl Küpfmüller hat die Entropie von deutschen Texten untersucht.&nbsp; Er geht bei seiner  in&nbsp; [Küpf54]<ref name ='Küpf54'>Küpfmüller, K.: ''Die Entropie der deutschen Sprache''. Fernmeldetechnische Zeitung 7, 1954, S. 265-272.</ref>&nbsp; veröffentlichten Abschätzung von folgenden Voraussetzungen aus:
*ein Alphabet mit 26 Buchstaben (keine Umlaute und Satzzeichen),
+
*ein Alphabet mit&nbsp; $26$&nbsp; Buchstaben&nbsp; (keine Umlaute und Satzzeichen),
 
*Nichtberücksichtigung des Leerzeichens,
 
*Nichtberücksichtigung des Leerzeichens,
 
*keine Unterscheidung zwischen Groß– und Kleinschreibung.
 
*keine Unterscheidung zwischen Groß– und Kleinschreibung.
  
  
Der Entscheidungsgehalt ergibt sich somit zu $H_0 = \log_2 (26) ≈ 4.7\ \rm  bit/Buchstabe$.  
+
Der Entscheidungsgehalt ergibt sich somit zu&nbsp; $H_0 = \log_2 (26) ≈ 4.7\ \rm  bit/Buchstabe$.  
  
 
Küpfmüllers Abschätzung basiert auf den folgenden Überlegungen:
 
Küpfmüllers Abschätzung basiert auf den folgenden Überlegungen:
  
  
'''(1)'''&nbsp; Die '''erste Entropienäherung''' ergibt sich aus den Buchstabenhäufigkeiten in deutschen Texten. Nach einer Studie von 1939 ist „e” mit 16.7% am häufigsten, am seltensten ist „x” mit 0.02%. Über alle Buchstaben gemittelt ergibt sich $H_1 \approx 4.1\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$
+
'''(1)'''&nbsp; Die&nbsp; '''erste Entropienäherung'''&nbsp; ergibt sich aus den Buchstabenhäufigkeiten in deutschen Texten.&nbsp; Nach einer Studie von 1939 ist „e” mit&nbsp; $16.7\%$&nbsp; am häufigsten, am seltensten ist „x” mit&nbsp; $0.02\%$.&nbsp; Über alle Buchstaben gemittelt ergibt sich&nbsp;
 +
:$$H_1 \approx 4.1\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$
  
+
'''(2)'''&nbsp; Hinsichtlich der&nbsp; '''Silbenhäufigkeit'''&nbsp; wertet Küpfmüller das von&nbsp; [https://de.wikipedia.org/wiki/Friedrich_Wilhelm_Kaeding Friedrich Wilhelm Kaeding]&nbsp; 1898 herausgegebene „Häufigkeitswörterbuch der deutschen Sprache” aus.&nbsp; Er unterscheidet zwischen Stammsilben, Vorsilben und Endsilben und kommt so zum mittleren Informationsgehalt aller Silben:
'''(2)'''&nbsp; Hinsichtlich '''Silbenhäufigkeit''' wertet Küpfmüller das von F. W. Kaeding 1898 herausgegebene „Häufigkeitswörterbuch der deutschen Sprache” aus. Er unterscheidet Stammsilben, Vorsilben und Endsilben und kommt so zum mittleren Informationsgehalt aller Silben:
 
 
   
 
   
 
:$$H_{\rm Silbe} =  \hspace{-0.1cm} H_{\rm Stamm} + H_{\rm Vor} + H_{\rm End} + H_{\rm Rest} \approx  
 
:$$H_{\rm Silbe} =  \hspace{-0.1cm} H_{\rm Stamm} + H_{\rm Vor} + H_{\rm End} + H_{\rm Rest} \approx  
Zeile 49: Zeile 51:
  
 
:Hierbei wurden folgende Anteile berücksichtigt:
 
:Hierbei wurden folgende Anteile berücksichtigt:
:*Nach der Kaeding–Studie von 1898 bilden die 400 häufigsten Stammsilben (beginnend mit „de”) 47% eines deutschen Textes und tragen zur Entropie mit $H_{\text{Stamm}} ≈ 4.15 \ \rm bit/Silbe$ bei.
+
:*Nach der Kaeding–Studie von 1898 bilden die&nbsp; $400$&nbsp; häufigsten Stammsilben&nbsp; (beginnend mit „de”)&nbsp; $47\%$&nbsp; eines deutschen Textes und tragen zur Entropie mit&nbsp; $H_{\text{Stamm}} ≈ 4.15 \ \rm bit/Silbe$&nbsp; bei.
:*Der Beitrag der 242 häufigsten Vorsilben – an erster Stelle „ge” mit 9% – wird von Küpfmüller mit $H_{\text{Vor}} ≈ 0.82 \ \rm bit/Silbe$ beziffert.
+
:*Der Beitrag der&nbsp; $242$&nbsp; häufigsten Vorsilben – an erster Stelle „ge” mit&nbsp; $9\%$ – wird von Küpfmüller mit&nbsp; $H_{\text{Vor}} ≈ 0.82 \ \rm bit/Silbe$ beziffert.
:*Der Beitrag der 118 meistgebrauchten Endsilben ist $H_{\text{End}} ≈ 1.62 \ \rm bit/Silbe$. Am häufigsten tritt am Wortende „en” mit 30% auf.
+
:*Der Beitrag der&nbsp; $118$&nbsp; meistgebrauchten Endsilben ist&nbsp; $H_{\text{End}} ≈ 1.62 \ \rm bit/Silbe$.&nbsp; Am häufigsten tritt am Wortende „en” mit&nbsp; $30\%$&nbsp; auf.
:*Der Rest von 14% verteilt sich auf bisher nicht erfasste Silben. Küpfmüller nimmt dazu an, dass es davon 4000 gibt und diese gleichverteilt sind. Er setzt dafür $H_{\text{Rest}} ≈ 2 \ \rm bit/Silbe$ an.
+
:*Der Rest von&nbsp; $14\%$&nbsp; verteilt sich auf bisher nicht erfasste Silben.&nbsp; Küpfmüller nimmt dazu an, dass es davon&nbsp; $4000$&nbsp; gibt und dass diese gleichverteilt sind.&nbsp; Er setzt dafür&nbsp; $H_{\text{Rest}} ≈ 2 \ \rm bit/Silbe$&nbsp; an.
  
  
'''(3)'''&nbsp; Als durchschnittliche Buchstabenzahl je Silbe ermittelte Küpfmüller den Wert $3.03$. Daraus schloss er auf die '''dritte Entropienäherung''' hinsichtlich der Buchstaben: &nbsp; $H_3 \approx {8.6}/{3.03}\approx 2.8\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$
+
'''(3)'''&nbsp; Als durchschnittliche Buchstabenzahl je Silbe ermittelte Küpfmüller den Wert&nbsp; $3.03$.&nbsp; Daraus schloss er auf die&nbsp; '''dritte Entropienäherung'''&nbsp; hinsichtlich der Buchstaben:  
 +
:$$H_3 \approx {8.6}/{3.03}\approx 2.8\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$
  
  
'''(4)'''&nbsp; Küpfmüllers Abschätzung der Entropienäherung $H_3$ basierte vor allem auf den Silbenhäufigkeiten gemäß '''(2)''' und dem Mittelwert '''(3)''' von $3.03$ Buchstaben pro Silbe. Um eine weitere Entropienäherung $H_k$ mit größerem $k$ zu erhalten, analysierte Küpfmüller zusätzlich die Wörter in deutschen Texten. Er kam zu folgenden Ergebnissen:
+
'''(4)'''&nbsp; Küpfmüllers Abschätzung der Entropienäherung&nbsp; $H_3$&nbsp; basierte vor allem auf den Silbenhäufigkeiten gemäß&nbsp; '''(2)'''&nbsp; und dem Mittelwert von&nbsp; $3.03$&nbsp; Buchstaben pro Silbe. Um eine weitere Entropienäherung&nbsp; $H_k$&nbsp; mit größerem&nbsp; $k$&nbsp; zu erhalten, analysierte Küpfmüller zusätzlich die Wörter in deutschen Texten.&nbsp; Er kam zu folgenden Ergebnissen:
  
:*Die 322 häufigsten Wörter liefern einen Entropiebeitrag von $4.5 \ \rm bit/Wort$.  
+
:*Die&nbsp; $322$&nbsp; häufigsten Wörter liefern einen Entropiebeitrag von&nbsp; $4.5 \ \rm bit/Wort$.  
:*Die Beiträge der restlichen 40.000 Wörter wurden geschätzt, wobei angenommen wurde, dass die Häufigkeiten von seltenen Wörtern reziprok zu ihrer Ordnungszahl sind.  
+
:*Die Beiträge der restlichen&nbsp; $40\hspace{0.1cm}000$ Wörter&nbsp; wurden geschätzt.&nbsp; Angenommen wurde, dass die Häufigkeiten von seltenen Wörtern reziprok zu ihrer Ordnungszahl sind.  
:*Mit diesen Voraussetzungen ergibt sich der mittlere Informationsgehalt (bezogen auf Wörter) zu ca. $11 \ \rm bit/Wort$.
+
:*Mit diesen Voraussetzungen ergibt sich der mittlere Informationsgehalt (bezogen auf Wörter) zu ca.&nbsp; $11 \ \rm bit/Wort$.
  
  
'''(5)'''&nbsp; Die Auszählung &bdquo;Buchstaben pro Wort&rdquo; ergab im Mittel 5.5. Analog zu Punkt '''(3)''' wurde so die Entropienäherung für $k = 5.5$ angenähert. Küpfmüller gibt hierfür den Wert $H_{5.5} \approx {11}/{5.5}\approx 2\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$ Natürlich kann $k$ gemäß [[Informationstheorie/Nachrichtenquellen_mit_Gedächtnis#Verallgemeinerung_auf_k.E2.80.93Tupel_und_Grenz.C3.BCbergang|seiner Definition]] nur ganzzahlige Werte annehmen. Diese Gleichung ist deshalb so zu interpretieren, dass sich für $H_5$ ein etwas größerer und für $H_6$ ein etwas kleinerer Wert als $2 \ {\rm bit/Buchstabe}$ ergeben wird.
+
'''(5)'''&nbsp; Die Auszählung &bdquo;Buchstaben pro Wort&rdquo; ergab im Mittel&nbsp; $5.5$.&nbsp; Analog zu Punkt&nbsp; '''(3)'''&nbsp; wurde so die Entropienäherung für&nbsp; $k = 5.5$&nbsp; angenähert. Küpfmüller gibt hierfür an:
 +
:$$H_{5.5} \approx {11}/{5.5}\approx 2\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$
 +
:Natürlich kann&nbsp; $k$&nbsp; gemäß&nbsp; [[Informationstheorie/Nachrichtenquellen_mit_Gedächtnis#Verallgemeinerung_auf_.7F.27.22.60UNIQ-MathJax109-QINU.60.22.27.7F.E2.80.93Tupel_und_Grenz.C3.BCbergang|seiner Definition]]&nbsp; nur ganzzahlige Werte annehmen.&nbsp; Diese Gleichung ist deshalb so zu interpretieren, dass sich für&nbsp; $H_5$&nbsp; ein etwas größerer und für&nbsp; $H_6$&nbsp; ein etwas kleinerer Wert als&nbsp; $2 \ {\rm bit/Buchstabe}$&nbsp; ergeben wird.
  
  
 
[[Datei:P_ID2303__Inf_T_1_3_S2.png|right|frame|Näherungswerte der Entropie der deutschen Sprache nach Küpfmüller]]
 
[[Datei:P_ID2303__Inf_T_1_3_S2.png|right|frame|Näherungswerte der Entropie der deutschen Sprache nach Küpfmüller]]
'''(6)'''&nbsp; Man kann nun versuchen, aus diesen drei Punkten durch Extrapolation den Endwert der Entropie für $k \to \infty$  zu ermitteln. In nebenstehender Grafik wird dies bei logarithmisch aufgetragener Abszisse verdeutlicht:
+
'''(6)'''&nbsp; Man kann nun versuchen, aus diesen drei Punkten&nbsp; $H_1$,&nbsp; $H_3$,&nbsp; $H_{5.5}$&nbsp; durch Extrapolation den Endwert der Entropie für&nbsp; $k \to \infty$&nbsp; zu ermitteln.&nbsp; In nebenstehender Grafik wird dies bei logarithmisch aufgetragener Abszisse verdeutlicht:
:*Die durchgehende Linie ist der  Küpfmüllerschen Originalarbeit [Küpf54]<ref name ='Küpf54'>Küpfmüller, K.: ''Die Entropie der deutschen Sprache''. Fernmeldetechnische Zeitung 7, 1954, S. 265-272.</ref> entnommen und führt zum Entropie-Endwert $H = 1.6 \ \rm bit/Buchstabe$.  
+
:*Die durchgehende Linie ist der  Küpfmüllerschen Originalarbeit&nbsp; [Küpf54]<ref name ='Küpf54'>Küpfmüller, K.: ''Die Entropie der deutschen Sprache''. Fernmeldetechnische Zeitung 7, 1954, S. 265-272.</ref>&nbsp; entnommen und führt zum Entropie-Endwert&nbsp; $H = 1.6 \ \rm bit/Buchstabe$.  
:*Die grünen Kurven sind zwei Extrapolationsversuche (eines kontinuierlichen Funktionsverlaufes durch drei Punkte) des $\rm LNTwww$–Autors.   
+
:*Die grünen Kurven sind zwei Extrapolationsversuche (eines kontinuierlichen Funktionsverlaufes durch drei Punkte) des&nbsp; $\rm LNTwww$–Autors.   
:*Diese und die braunen Pfeile sollen eigentlich nur zeigen, dass eine solche Extrapolation (vorsichtig formuliert) etwas vage ist.
+
:*Diese und die braunen Pfeile sollen eigentlich nur zeigen, dass eine solche Extrapolation&nbsp; (vorsichtig formuliert)&nbsp; etwas vage ist.
  
  
'''(7)'''&nbsp; Küpfmüller versuchte anschließend, den von ihm mit dieser ersten Abschätzung gefundenen Endwert $H = 1.6 \ \rm bit/Buchstabe$ mit völlig anderer Methodik – siehe nächster Abschnitt – zu verifizieren. Nach dieser Abschätzung revidierte er sein Ergebnis geringfügig auf $H = 1.51 \ \rm bit/Buchstabe$.
+
'''(7)'''&nbsp; Küpfmüller versuchte anschließend, den von ihm mit dieser ersten Abschätzung gefundenen Endwert&nbsp; $H = 1.6 \ \rm bit/Buchstabe$&nbsp; mit völlig anderer Methodik – siehe nächster Abschnitt – zu verifizieren. Nach dieser Abschätzung revidierte er sein Ergebnis geringfügig auf&nbsp;
 +
:$$H = 1.51 \ \rm bit/Buchstabe.$$
  
  
'''(8)'''&nbsp; Claude E. Shannon hatte drei Jahre vorher nach völlig anderer Vorgehensweise für die englische Sprache den Entropiewert $H ≈ 1 \ \rm bit/Buchstabe$ angegeben, allerdings unter Berücksichtigung des Leerzeichens. Um seine Ergebnisse mit Shannom vergleichen zu können, hat Küpfmüller das Leerzeichen nachträglich in sein Ergebnis eingerechnet.  
+
'''(8)'''&nbsp; Claude E. Shannon hatte drei Jahre vorher nach völlig anderer Vorgehensweise für die englische Sprache den Entropiewert&nbsp; $H ≈ 1 \ \rm bit/Buchstabe$&nbsp; angegeben, allerdings unter Berücksichtigung des Leerzeichens.&nbsp; Um seine Ergebnisse mit Shannom vergleichen zu können, hat Küpfmüller das Leerzeichen nachträglich in sein Ergebnis eingerechnet.  
  
:*Der Korrekturfaktor ist der Quotient aus der mittleren Wortlänge ohne Berücksichtigung des Leerzeichens ($5.5$) und der mittleren Wortlänge mit Berücksichtigung des Leerzeichens ($5.5+1 = 6.5$).  
+
:*Der Korrekturfaktor ist der Quotient aus der mittleren Wortlänge ohne Berücksichtigung des Leerzeichens&nbsp; $(5.5)$&nbsp; und der mittleren Wortlänge mit Berücksichtigung des Leerzeichens&nbsp; $(5.5+1 = 6.5)$.  
:*Diese Korrektur führte zu Küpfmüllers endgültigem Ergebnis $H =1.51 \cdot  {5.5}/{6.5}\approx 1.3\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$
+
:*Diese Korrektur führte zu Küpfmüllers endgültigem Ergebnis:&nbsp;
 +
:$$H =1.51 \cdot  {5.5}/{6.5}\approx 1.3\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$
  
  
 
==Eine weitere Entropieabschätzung von Küpfmüller  ==
 
==Eine weitere Entropieabschätzung von Küpfmüller  ==
 
<br>
 
<br>
Der Vollständigkeit halber seien hier noch Küpfmüllers Überlegungen dargelegt, die ihn zum Endergebnis $H = 1.51 \ \rm bit/Buchstabe$ führten. Da es für die Statistik von Wortgruppen oder ganzen Sätzen keine Unterlagen gab, schätzte er den Entropiewert der deutschen Sprache wie folgt ab:
+
Der Vollständigkeit halber seien hier noch Küpfmüllers Überlegungen dargelegt, die ihn zum Endergebnis&nbsp; $H = 1.51 \ \rm bit/Buchstabe$&nbsp; führten.&nbsp; Da es für die Statistik von Wortgruppen oder ganzen Sätzen keine Unterlagen gab, schätzte er den Entropiewert der deutschen Sprache wie folgt ab:
*Ein beliebiger zusammenhängender deutscher Text wird hinter einem bestimmten Wort abgedeckt. Der vorhergehende Text wird gelesen, und der Leser soll versuchen, das folgende Wort aus dem Zusammenhang mit dem vorhergehenden Text zu ermitteln.
+
*Ein beliebiger zusammenhängender deutscher Text wird hinter einem bestimmten Wort abgedeckt.&nbsp; Der vorhergehende Text wird gelesen, und der Leser soll versuchen, das folgende Wort aus dem Zusammenhang mit dem vorhergehenden Text zu ermitteln.
*Bei sehr vielen solcher Versuche ergibt die prozentuale Zahl der Treffer ein Maß für die Bindungen zwischen Wörtern und Sätzen. Es zeigt sich, dass bei ein und derselben Textart (Romane, wissenschaftliche Schriften, usw.) ein und desselben Autors relativ schnell (bei etwa 100 bis 200 Versuchen) ein konstanter Endwert dieses Trefferverhältnisses erreicht wird.
+
*Bei sehr vielen solcher Versuche ergibt die prozentuale Zahl der Treffer ein Maß für die Bindungen zwischen Wörtern und Sätzen.&nbsp; Es zeigt sich, dass bei ein und derselben Textart (Romane, wissenschaftliche Schriften, usw.) ein und desselben Autors relativ schnell&nbsp; (bei etwa hundert bis zweihundert Versuchen)&nbsp; ein konstanter Endwert dieses Trefferverhältnisses erreicht wird.
*Das Trefferverhältnis hängt aber ziemlich stark von der Art des Textes ab. Für verschiedene Texte ergeben sich Werte zwischen $15\%$ und $33\%$, mit dem Mittelwert bei $22\%$. Das heißt aber auch: Im Durchschnitt können $22\%$ der Wörter in einem deutschen Text aus dem Zusammenhang heraus ermittelt werden.
+
*Das Trefferverhältnis hängt aber ziemlich stark von der Art des Textes ab.&nbsp; Für verschiedene Texte ergeben sich Werte zwischen&nbsp; $15\%$&nbsp; und&nbsp; $33\%$, mit dem Mittelwert bei&nbsp; $22\%$.&nbsp; Das heißt aber auch: &nbsp; Im Durchschnitt können&nbsp; $22\%$&nbsp; der Wörter in einem deutschen Text aus dem Zusammenhang heraus ermittelt werden.
*Anders ausgedrückt: Die Wörterzahl  eines langen Textes kann mit dem Faktor $0.78$ reduziert werden, ohne dass der Nachrichtengehalt des Textes eine signifikante Einbuße erfährt. Ausgehend vom Bezugswert $H_{5.5} = 2 \ \rm  bit/Buchstabe$ (siehe Punkt '''(5)''' im letzten Abschnitt) für ein mittellanges Wort ergibt sich somit die Entropie $H ≈ 0.78 · 2 = 1.56  \ \rm  bit/Buchstabe$.
+
*Anders ausgedrückt: &nbsp;  Die Wörterzahl  eines langen Textes kann mit dem Faktor&nbsp; $0.78$&nbsp; reduziert werden, ohne dass der Nachrichtengehalt des Textes eine signifikante Einbuße erfährt.&nbsp; Ausgehend vom Bezugswert&nbsp; $H_{5.5} = 2 \ \rm  bit/Buchstabe$&nbsp; $($siehe Punkt&nbsp; '''(5)'''&nbsp; im letzten Abschnitt$)$&nbsp; für ein mittellanges Wort ergibt sich somit die Entropie&nbsp; $H ≈ 0.78 · 2 = 1.56  \ \rm  bit/Buchstabe$.
*Küpfmüller überprüfte diesen Wert mit einer vergleichbaren empirischen Untersuchung hinsichtlich der Silben und ermittelte so den Reduktionsfaktor $0.54$ (hinsichtlich Silben). Als Endergebnis nennt Küpfmüller $H = 0.54 · H_3 ≈ 1.51 \ \rm  bit/Buchstabe$, wobei $H_3 ≈ 2.8 \ \rm  bit/Buchstabe$ der Entropie einer Silbe mittlerer Länge (≈ 3 Buchstaben, siehe Punkt '''(3)''' auf der letzten Seite) entspricht.
+
*Küpfmüller überprüfte diesen Wert mit einer vergleichbaren empirischen Untersuchung hinsichtlich der Silben und ermittelte so den Reduktionsfaktor&nbsp; $0.54$&nbsp; (hinsichtlich Silben).&nbsp; Als Endergebnis nennt Küpfmüller&nbsp; $H = 0.54 · H_3 ≈ 1.51 \ \rm  bit/Buchstabe$, wobei&nbsp; $H_3 ≈ 2.8 \ \rm  bit/Buchstabe$&nbsp; der Entropie einer Silbe mittlerer Länge&nbsp; $($etwa drei Buchstaben, siehe Punkt&nbsp; '''(3)'''&nbsp; auf der letzten Seite$)$&nbsp; entspricht.
  
  
Die vielleicht als sehr kritisch empfundenen Bemerkungen auf dieser und der vorherigen Seite sollen die Bedeutung von Küpfmüllers Entropieabschätzung nicht herabsetzen, eben so wenig wie Shannons Beiträge zur gleichen Thematik. Sie sollen nur auf die großen Schwierigkeiten hinweisen, die bei dieser Aufgabenstellung auftreten. Dies ist vielleicht auch der Grund dafür, dass sich seit den 1950er Jahren niemand mehr mit dieser Problematik intensiv beschäftigt hat.
+
Die vielleicht als sehr kritisch empfundenen Bemerkungen auf dieser und der vorherigen Seite sollen die Bedeutung von Küpfmüllers Entropieabschätzung nicht herabsetzen, eben so wenig wie Shannons Beiträge zur gleichen Thematik.  
 +
*Sie sollen nur auf die großen Schwierigkeiten hinweisen, die bei dieser Aufgabenstellung auftreten.  
 +
*Dies ist vielleicht auch der Grund dafür, dass sich seit den 1950er Jahren niemand mehr mit dieser Problematik intensiv beschäftigt hat.
  
 
 
 
 
 
==Einige eigene Simulationsergebnisse==   
 
==Einige eigene Simulationsergebnisse==   
 
<br>
 
<br>
Die Angaben von Karl Küpfmüller hinsichtlich der Entropie der deutschen Sprache sollen nun mit einigen (sehr einfachen) Simulationsergebnissen verglichen werden, die vom Autor dieses Kapitels (Günter Söder) am Lehrstuhl für Nachrichtentechnik der Technischen Universität München im Rahmen eines Praktikums erarbeitet wurden. Die Resultate basieren auf
+
Die Angaben von Karl Küpfmüller hinsichtlich der Entropie der deutschen Sprache sollen nun mit einigen (sehr einfachen) Simulationsergebnissen verglichen werden, die vom Autor dieses Kapitels (Günter Söder) am Lehrstuhl für Nachrichtentechnik der Technischen Universität München im Rahmen eines Praktikums erarbeitet wurden.&nbsp; Die Resultate basieren auf
*dem Windows-Programm [http://www.lntwww.de/downloads/Sonstiges/Programme/WDIT.zip WDIT] &nbsp;&rArr;&nbsp; der Link verweist auf die ZIP-Version des Programms;  
+
*dem Windows-Programm&nbsp; [http://www.lntwww.de/downloads/Sonstiges/Programme/WDIT.zip WDIT] &nbsp;&rArr;&nbsp; der Link verweist auf die ZIP-Version des Programms;  
*der zugehörigen Praktikumsanleitung [http://www.lntwww.de/downloads/Sonstiges/Texte/Wertdiskrete_Informationstheorie.pdf Wertdiskrete Informationstheorie]  &nbsp;&rArr;&nbsp; der Link verweist auf die PDF-Version;
+
*der zugehörigen Praktikumsanleitung&nbsp; [http://www.lntwww.de/downloads/Sonstiges/Texte/Wertdiskrete_Informationstheorie.pdf Wertdiskrete Informationstheorie]  &nbsp; &rArr; &nbsp; der Link verweist auf die PDF-Version;
*einer ASCII–Version der deutschen Bibel mit fast $N = 4.37 \cdot 10^6$  Schriftzeichen, was bei 42 Zeilen pro Seite und 80 Zeichen pro Zeile etwa einem Buch mit 1300 Seiten entsprechen würde.
+
*der deutschen Bibel im ASCII–Format mit&nbsp;  $N \approx 4.37 \cdot 10^6$&nbsp; Zeichen. Dies entspricht einem Buch mit&nbsp; $1300$&nbsp; Seiten bei&nbsp; $42$&nbsp; Zeilen pro Seite und&nbsp; $80$&nbsp; Zeichen pro Zeile.  
*Der Symbolumfang wurde auf $M = 33$ reduziert und umfasst die Zeichen '''a''',  '''b''',  '''c''',  ... ,  '''x''',  '''y''',  '''z''',  '''ä''',  '''ö''',  '''ü''', '''ß''',  '''LZ''',  '''ZI''',  '''IP'''.
 
  
  
Nicht unterschieden wurde bei unserer Analyse zwischen Groß– und Kleinbuchstaben. Gegenüber Küpfmüllers Analyse wurden hier noch zusätzlich berücksichtigt:
+
Der Symbolumfang wurde auf&nbsp; $M = 33$&nbsp; reduziert und umfasst die Zeichen '''a''',&nbsp;  '''b''',&nbsp;  '''c''',&nbsp;  ... ,&nbsp;  '''x''',&nbsp;  '''y''',&nbsp;  '''z''',&nbsp;  '''ä''',&nbsp; '''ö''',&nbsp; '''ü''',&nbsp; '''ß''',&nbsp;  $\rm LZ$,&nbsp;  $\rm ZI$,&nbsp; $\rm IP$.&nbsp; Nicht unterschieden wurde bei unserer Analyse zwischen Groß– und Kleinbuchstaben.
*die deutschen Umlaute '''ä''',  '''ö''',  '''ü''' und '''ß''', die etwa 1.2% des Bibeltextes ausmachen,
 
*die Klasse $\rm IP$ (Interpunktion) mit ca. 3%,
 
*die Klasse $\rm ZI$ (Ziffer) mit ca. 1.3% wegen der Vers–Nummerierung innerhalb der Bibel,
 
*das Leerzeichen $\rm (LZ)$ als das häufigste Zeichen (17.8%), noch vor dem „e” (12.8%).
 
  
 +
Gegenüber Küpfmüllers Analyse wurden hier also noch zusätzlich berücksichtigt:
 +
*die deutschen Umlaute&nbsp; '''ä''',&nbsp;  '''ö''',&nbsp;  '''ü'''&nbsp; und&nbsp; '''ß''', die etwa&nbsp; $1.2\%$&nbsp; des Bibeltextes ausmachen,
 +
*die Klasse&nbsp; $\rm IP$&nbsp; (Interpunktion) mit ca.&nbsp; $3\%$,
 +
*die Klasse&nbsp; $\rm ZI$&nbsp; (Ziffer) mit ca.&nbsp; $1.3\%$&nbsp; wegen  der Vers–Nummerierung innerhalb der Bibel,
 +
*das Leerzeichen&nbsp; $\rm (LZ)$&nbsp; als das häufigste Zeichen&nbsp; $(17.8\%)$, noch vor dem „e”&nbsp; $(12.8\%)$.
  
Die nachfolgende Tabelle fasst die Ergebnisse zusammen. $N$ bezeichnet die jeweils analysierte Dateigröße in Schriftzeichen (Byte).  Der Entscheidungsgehalt $H_0$ sowie die Entropienäherungen  $H_1$, $H_2$ und $H_3$ wurden jeweils aus $N$ Schriftzeichen ermittelt und sind jeweils in &bdquo;bit/Schriftzeichen&rdquo; angegeben.
 
  
[[Datei:Inf_T_1_3_S3_vers2.png|left|frame|Entropiewerte (in bit/Schriftzeichen) der deutschen Bibel]]
+
Die nachfolgende Tabelle fasst die Ergebnisse zusammen.&nbsp; $N$&nbsp; bezeichnet die jeweils analysierte Dateigröße in Schriftzeichen (Byte).&nbsp;  Der Entscheidungsgehalt&nbsp; $H_0$&nbsp; sowie die Entropienäherungen&nbsp;  $H_1$,&nbsp; $H_2$&nbsp; und&nbsp; $H_3$&nbsp; wurden jeweils aus&nbsp; $N$&nbsp; Schriftzeichen ermittelt und sind jeweils in &bdquo;bit/Schriftzeichen&rdquo; angegeben.
  
 +
[[Datei:Inf_T_1_3_S3.png|left|frame|Entropiewerte (in bit/Schriftzeichen) der deutschen Bibel]]
 +
<br>
 
*Betrachten Sie diese Ergebnisse bitte nicht als wissenschaftliche Untersuchung.
 
*Betrachten Sie diese Ergebnisse bitte nicht als wissenschaftliche Untersuchung.
 
*Es ist nur der Versuch, Studierenden die behandelte Thematik in einem Praktikum näher zu bringen.  
 
*Es ist nur der Versuch, Studierenden die behandelte Thematik in einem Praktikum näher zu bringen.  
Zeile 122: Zeile 132:
 
<br clear=all>
 
<br clear=all>
 
Die Ergebnisse obiger Tabelle lassen sich wie folgt zusammenfassen:
 
Die Ergebnisse obiger Tabelle lassen sich wie folgt zusammenfassen:
*In allen Zeilen nehmen die Entropienäherungen $H_k$ mit wachsendem $k$ monoton ab. Der Abfall verläuft konvex, das heißt, es ist $H_1 - H_2 > H_2 - H_3$. Die Extrapolation des Endwertes ( $k \to \infty$ ) ist aus den jeweils ermittelten drei Entropienäherungen nicht (oder nur sehr vage) möglich.
+
*In allen Zeilen nehmen die Entropienäherungen&nbsp; $H_k$&nbsp; mit wachsendem&nbsp; $k$&nbsp; monoton ab.&nbsp; Der Abfall verläuft konvex, das heißt, es ist&nbsp; $H_1 - H_2 > H_2 - H_3$.&nbsp; Die Extrapolation des Endwertes&nbsp; $(k \to \infty)$&nbsp; ist aus den jeweils ermittelten drei Entropienäherungen nicht (oder nur äußerst vage) möglich.
*Verzichtet man auf die Auswertung der Ziffern ($\rm ZI$, Zeile 2 &nbsp; ⇒ &nbsp; $M = 32$) und zusätzlich auf die Auswertung der Interpunktionszeichen ($\rm IP$, Zeile 3 &nbsp; ⇒ &nbsp;  $M = 31$), so nehmen die Entropienäherungen $H_1$ (um 0.114), $H_2$ (um 0.063) und $H_3$ (um 0.038) ab. Auf den Endwert $H$ als dem Grenzwert von $H_k$ für $k \to \infty$ wirkt sich der Verzicht auf Ziffern und Interpunktion voraussichtlich kaum aus.
+
*Verzichtet man auf die Auswertung der Ziffern&nbsp; $(\rm ZI$, Zeile 2 &nbsp; ⇒ &nbsp; $M = 32)$&nbsp; und zusätzlich auf die Auswertung der Interpunktionszeichen&nbsp; $(\rm IP$, Zeile 3 &nbsp; ⇒ &nbsp;  $M = 31)$, so nehmen die Entropienäherungen&nbsp; $H_1$&nbsp; $($um&nbsp; $0.114)$,&nbsp; $H_2$&nbsp; $($um&nbsp;  $0.063)$&nbsp;  und&nbsp; $H_3$&nbsp; $($um&nbsp; $0.038)$&nbsp; ab.&nbsp; Auf den Endwert&nbsp; $H$&nbsp; als dem Grenzwert von&nbsp; $H_k$&nbsp; für&nbsp; $k \to \infty$&nbsp; wirkt sich der Verzicht auf Ziffern und Interpunktion voraussichtlich kaum aus.
*Lässt man bei der Auswertung noch das Leerzeichen ($\rm LZ$, Zeile 4 &nbsp; ⇒ &nbsp; $M = 30$) außer Betracht, so ergibt sich nahezu die gleiche Konstellation wie von Küpfmüller ursprünglich betrachtet. Der einzige Unterschied sind die eher seltenen deutschen Sonderzeichen  '''ä''',  '''ö''',  '''ü''' und '''ß'''.
+
*Lässt man bei der Auswertung noch das Leerzeichen&nbsp; $(\rm LZ$, Zeile 4 &nbsp; ⇒ &nbsp; $M = 30)$&nbsp; außer Betracht, so ergibt sich nahezu die gleiche Konstellation wie von Küpfmüller ursprünglich betrachtet. Der einzige Unterschied sind die eher seltenen deutschen Sonderzeichen  '''ä''',&nbsp; '''ö''',&nbsp; '''ü'''&nbsp; und&nbsp; '''ß'''.
*Der in der letzten Zeile angegebene $H_1$–Wert $4.132$ stimmt mit dem von Küpfmüller ermittelten Wert $H_1 ≈ 4.1$ sehr gut überein. Hinsichtlich der $H_3$–Werte gibt es aber deutliche Unterschiede: Unsere Analyse ergibt $H_3 ≈ 3.4$, während Küpfmüller $H_3 ≈ 2.8$ nennt (alle Angaben in bit/Buchstabe).
+
*Der in der letzten Zeile angegebene&nbsp; $H_1$–Wert&nbsp; $(4.132)$&nbsp; stimmt mit dem von Küpfmüller ermittelten Wert&nbsp; $H_1 ≈ 4.1$&nbsp; sehr gut überein.&nbsp; Hinsichtlich der&nbsp; $H_3$–Werte gibt es aber deutliche Unterschiede: &nbsp; Unsere Analyse ergibt&nbsp; $H_3 ≈ 3.4$, während Küpfmüller&nbsp; $H_3 ≈ 2.8$&nbsp; nennt (alle Angaben in bit/Buchstabe).
*Aus der Auftrittshäufigkeit des Leerzeichens $(17.8\%)$ ergibt sich hier eine mittlere Wortlänge von $1/0.178 - 1 ≈ 4.6$, ein kleinerer Wert als von Küpfmüller ($5.5$) angegeben. Die Diskrepanz lässt sich zum Teil mit unserer Analysedatei „Bibel” erklären (viele Leerzeichen aufgrund der Vers–Nummerierung).
+
*Aus der Auftrittshäufigkeit des Leerzeichens&nbsp; $(17.8\%)$&nbsp; ergibt sich hier eine mittlere Wortlänge von&nbsp; $1/0.178 - 1 ≈ 4.6$, ein kleinerer Wert als von Küpfmüller&nbsp; ($5.5$)&nbsp; angegeben.&nbsp; Die Diskrepanz lässt sich zum Teil mit unserer Analysedatei „Bibel” erklären (viele Leerzeichen aufgrund der Vers–Nummerierung).
*Interessant ist der Vergleich der Zeilen 3 und 4. Berücksichtigt man das Leerzeichen, so wird zwar $H_0$ von $\log_2 \ (30) \approx 4.907$ auf $\log_2 \ (31) \approx 4.954$ vergrößert, aber man verringert dadurch $H_1$ (um den Faktor 0.98), $H_2$ (um 0.96) und $H_3$ (um 0.93). Küpfmüller hat diesen Faktor intuitiv mit $85\%$ berücksichtigt.
+
*Interessant ist der Vergleich der Zeilen 3 und 4.&nbsp; Berücksichtigt man das Leerzeichen, so wird zwar&nbsp; $H_0$&nbsp; von&nbsp; $\log_2 \ (30) \approx 4.907$&nbsp; auf&nbsp; $\log_2 \ (31) \approx 4.954$&nbsp; vergrößert, aber man verringert dadurch&nbsp; $H_1$&nbsp; $($um den Faktor&nbsp; $0.98)$,&nbsp; $H_2$&nbsp; $($um&nbsp; $0.96)$&nbsp; und&nbsp; $H_3$&nbsp; $($um&nbsp; $0.93)$. Küpfmüller hat diesen Faktor intuitiv mit&nbsp; $85\%$&nbsp; berücksichtigt.
  
  
Obwohl wir unsere eigenen Recherchen als nicht so bedeutend ansehen, so glauben wir doch, dass für heutige Texte die von Shannon angegebenen $1.0 \ \rm  bit/Buchstabe$ für die englische Sprache und auch Küpfmüllers $1.3 \ \rm  bit/Buchstabe$ für die deutsche Sprache etwas zu niedrig sind, unter Anderem, weil
+
Obwohl wir diese eigene Recherche als eher unbedeutend erachten, so glauben wir doch, dass für heutige Texte die von Shannon angegebenen&nbsp; $1.0 \ \rm  bit/Buchstabe$&nbsp; für die englische Sprache und auch Küpfmüllers&nbsp; $1.3 \ \rm  bit/Buchstabe$&nbsp; für die deutsche Sprache etwas zu niedrig sind, unter Anderem, weil
*der Symbolumfang deutlich größer ist, als von Shannon und Küpfmüller bei ihren Analysen berücksichtigt – beispielsweise gilt für den ASCII–Zeichensatz $M = 256$,
+
*der Symbolumfang heute  größer ist, als von Shannon und Küpfmüller in den 1950er Jahren berücksichtigt; zum Beispiel gilt für den ASCII–Zeichensatz&nbsp; $M = 256$,
 
*die vielfachen Formatierungsmöglichkeiten (Unterstreichungen, Fett- und Kursivschrift, Einrückungen, Farben) den Informationsgehalt eines Dokuments weiter erhöhen.
 
*die vielfachen Formatierungsmöglichkeiten (Unterstreichungen, Fett- und Kursivschrift, Einrückungen, Farben) den Informationsgehalt eines Dokuments weiter erhöhen.
  
Zeile 137: Zeile 147:
 
==Synthetisch erzeugte Texte ==
 
==Synthetisch erzeugte Texte ==
 
<br>
 
<br>
In der Grafik sind künstlich erzeugte deutsche und englische Texte angegeben, die aus [Küpf54]<ref name ='Küpf54'>Küpfmüller, K.: ''Die Entropie der deutschen Sprache''. Fernmeldetechnische Zeitung 7, 1954, S. 265-272.</ref> entnommen wurden. Der zugrundeliegende Symbolumfang ist $M = 27$, das heißt, berücksichtigt sind alle Buchstaben (ohne Umlaute und '''ß''') sowie das Leerzeichen.
+
In der Grafik sind künstlich erzeugte deutsche und englische Texte angegeben, die aus&nbsp; [Küpf54]<ref name ='Küpf54'>Küpfmüller, K.: ''Die Entropie der deutschen Sprache''. Fernmeldetechnische Zeitung 7, 1954, S. 265-272.</ref>&nbsp; entnommen sind.&nbsp; Der zugrundeliegende Symbolumfang ist&nbsp; $M = 27$,&nbsp; das heißt, berücksichtigt sind alle Buchstaben&nbsp; (auch bei &bdquo;Deutsch&rdquo; ohne Umlaute und '''ß''')&nbsp; sowie das Leerzeichen.
 +
 
 +
[[Datei:Inf_T_1_3_S4_vers2.png|right|frame|Künstlich erzeugte deutsche und englische Texte]]
 +
 
 +
*Die&nbsp; &bdquo;Buchstabennäherung nullter Ordnung&rdquo;&nbsp; geht jeweils von gleichwahrscheinlichen Zeichen aus.&nbsp; Es gibt deshalb keinen Unterschied zwischen Deutsch (rot) und Englisch (blau).
 +
 
 +
 
 +
*Die&nbsp; &bdquo;erste Buchstabennäherung&rdquo;&nbsp;  berücksichtigt bereits die unterschiedlichen Häufigkeiten, die Näherungen höherer Ordnung auch die vorangegangenen Zeichen.
 +
 
 +
 
 +
*Bei der&nbsp; &bdquo;Synthese 4. Ordnung&rdquo;&nbsp;  erkennt man schon sinnhafte Worte.&nbsp; Hier hängt  die Wahrscheinlichkeit für einen neuen Buchstaben von den drei letzten ausgewählten Zeichen ab.
  
[[Datei:Inf_T_1_3_S4_vers2.png|center|frame|Künstlich erzeugte deutsche und englische Texte]]
 
  
*Die ''Buchstabennäherung nullter Ordnung'' geht von gleichwahrscheinlichen Zeichen aus. Hier ist kein Unterschied zwischen Deutsch (rot) und Englisch (blau) festzustellen.
+
*Die&nbsp; &bdquo;Wortnäherung erster Ordnung&rdquo;&nbsp; synthetisiert Sätze gemäß den Wortwahrscheinlichkeiten. Die&nbsp; &bdquo;Wortnäherung zweiter Ordnung&rdquo;&nbsp; berücksichtigt auch das vorherige Wort.
*Bei der ''ersten Buchstabennäherung'' werden bereits die unterschiedlichen Häufigkeiten berücksichtigt, bei den Näherungen höherer Ordnung auch die vorangegangenen Zeichen.
 
*Bei einer ''Synthese 4. Ordnung''  ⇒  die Wahrscheinlichkeit für einen neuen Buchstaben hängt von den drei zuletzt ausgewählten Zeichen ab – erkennt man bereits sinnhafte Worte.
 
*Die ''Wortnäherung erster Ordnung'' synthetisiert Sätze gemäß den Wortwahrscheinlichkeiten, die ''Wortnäherung zweiter Ordnung'' berücksichtigt zusätzlich noch das vorherige Wort.
 
  
  
  
Weitere Information zur synthetischen Erzeugung von deutschen und englischen Texten finden Sie in [[Aufgaben:1.8_Synthetisch_erzeugte_Texte|Aufgabe 1.8]].
+
Weitere Information zur synthetischen Erzeugung von deutschen und englischen Texten finden Sie in der&nbsp; [[Aufgaben:1.8_Synthetisch_erzeugte_Texte|Aufgabe 1.8]].
  
 
   
 
   

Aktuelle Version vom 30. Juni 2021, 12:27 Uhr

Schwierigkeiten bei der Entropiebestimmung


Bisher haben wir uns ausschließlich mit künstlich erzeugten Symbolfolgen beschäftigt.  Nun betrachten wir geschriebene Texte.  Ein solcher Text kann als eine natürliche wertdiskrete Nachrichtenquelle aufgefasst werden, die natürlich auch informationstheoretisch analysiert werden kann, indem man ihre Entropie ermittelt.

Natürliche Texte werden auch in heutiger Zeit (2011) noch oft mit dem 8 Bit–Zeichensatz nach ANSI  ("American National Standard Institute")  dargestellt, obwohl es etliche „modernere” Codierungen gibt. 

Die  $M = 2^8 = 256$  ANSI–Zeichen sind dabei wie folgt belegt:

  • Nr.  0   bis   31:   nicht druck– und darstellbare Steuerbefehle,
  • Nr.  32   bis  127:   identisch mit den Zeichen des 7 Bit–ASCII–Codes,
  • Nr.  128   bis 159:   weitere Steuerzeichen bzw. Alphanumerikzeichen für Windows,
  • Nr.  160   bis   255:   identisch mit den Unicode–Charts.


Theoretisch könnte man auch hier die Entropie entsprechend der Vorgehensweise  im letzten Kapitel  als den Grenzübergang der Entropienäherung  $H_k$  für  $k \to \infty$  ermitteln.  Praktisch ergeben sich aber nach dieser Rezeptur unüberwindbare numerische Grenzen:

  • Bereits für die Entropienäherung  $H_2$  gibt es  $M^2 = 256^2 = 65\hspace{0.1cm}536$  mögliche Zweiertupel.  Für die Berechnung sind somit ebenso viele Speicherplätze (in Byte) erforderlich.  Geht man davon aus, dass man für eine ausreichend sichere Statistik im Mittel  $100$  Entsprechungen pro Tupel benötigt, so sollte die Länge der Quellensymbolfolge bereits  $N > 6.5 · 10^6$  sein.
  • Die Anzahl der möglichen Dreiertupel ist  $M^3 > 16 · 10^7$  und damit ist die erforderliche Quellensymbollänge schon  $N > 1.6 · 10^9$.  Dies entspricht bei  $42$  Zeilen pro Seite und  $80$  Zeichen pro Zeile einem Buch mit etwa  $500\hspace{0.1cm}000$  Seiten.
  • Bei einem natürlichen Text reichen die statistischen Bindungen aber sehr viel weiter als über zwei oder drei Zeichen.  Küpfmüller gibt für die deutsche Sprache einen Wert von  $100$  an.  Zur Ermittlung der 100. Entropienäherung benötigt man aber  $2^{800}\approx10^{240}$  Häufigkeiten und für die gesicherte Statistik nochmals um den Faktor  $100$  mehr Zeichen.


Eine berechtigte Frage ist deshalb:   Wie hat  Karl Küpfmüller  im Jahre 1954 die Entropie der deutschen Sprache ermittelt, und vor ihm schon  Claude Elwood Shannon  die Entropie der englischen Sprache?  Eines sei vorweg verraten:   Nicht mit dem oben beschriebenen Ansatz.


Entropieabschätzung nach Küpfmüller


Karl Küpfmüller hat die Entropie von deutschen Texten untersucht.  Er geht bei seiner in  [Küpf54][1]  veröffentlichten Abschätzung von folgenden Voraussetzungen aus:

  • ein Alphabet mit  $26$  Buchstaben  (keine Umlaute und Satzzeichen),
  • Nichtberücksichtigung des Leerzeichens,
  • keine Unterscheidung zwischen Groß– und Kleinschreibung.


Der Entscheidungsgehalt ergibt sich somit zu  $H_0 = \log_2 (26) ≈ 4.7\ \rm bit/Buchstabe$.

Küpfmüllers Abschätzung basiert auf den folgenden Überlegungen:


(1)  Die  erste Entropienäherung  ergibt sich aus den Buchstabenhäufigkeiten in deutschen Texten.  Nach einer Studie von 1939 ist „e” mit  $16.7\%$  am häufigsten, am seltensten ist „x” mit  $0.02\%$.  Über alle Buchstaben gemittelt ergibt sich 

$$H_1 \approx 4.1\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$

(2)  Hinsichtlich der  Silbenhäufigkeit  wertet Küpfmüller das von  Friedrich Wilhelm Kaeding  1898 herausgegebene „Häufigkeitswörterbuch der deutschen Sprache” aus.  Er unterscheidet zwischen Stammsilben, Vorsilben und Endsilben und kommt so zum mittleren Informationsgehalt aller Silben:

$$H_{\rm Silbe} = \hspace{-0.1cm} H_{\rm Stamm} + H_{\rm Vor} + H_{\rm End} + H_{\rm Rest} \approx 4.15 + 0.82+1.62 + 2.0 \approx 8.6\,\, {\rm bit/Silbe} \hspace{0.05cm}.$$
Hierbei wurden folgende Anteile berücksichtigt:
  • Nach der Kaeding–Studie von 1898 bilden die  $400$  häufigsten Stammsilben  (beginnend mit „de”)  $47\%$  eines deutschen Textes und tragen zur Entropie mit  $H_{\text{Stamm}} ≈ 4.15 \ \rm bit/Silbe$  bei.
  • Der Beitrag der  $242$  häufigsten Vorsilben – an erster Stelle „ge” mit  $9\%$ – wird von Küpfmüller mit  $H_{\text{Vor}} ≈ 0.82 \ \rm bit/Silbe$ beziffert.
  • Der Beitrag der  $118$  meistgebrauchten Endsilben ist  $H_{\text{End}} ≈ 1.62 \ \rm bit/Silbe$.  Am häufigsten tritt am Wortende „en” mit  $30\%$  auf.
  • Der Rest von  $14\%$  verteilt sich auf bisher nicht erfasste Silben.  Küpfmüller nimmt dazu an, dass es davon  $4000$  gibt und dass diese gleichverteilt sind.  Er setzt dafür  $H_{\text{Rest}} ≈ 2 \ \rm bit/Silbe$  an.


(3)  Als durchschnittliche Buchstabenzahl je Silbe ermittelte Küpfmüller den Wert  $3.03$.  Daraus schloss er auf die  dritte Entropienäherung  hinsichtlich der Buchstaben:

$$H_3 \approx {8.6}/{3.03}\approx 2.8\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$


(4)  Küpfmüllers Abschätzung der Entropienäherung  $H_3$  basierte vor allem auf den Silbenhäufigkeiten gemäß  (2)  und dem Mittelwert von  $3.03$  Buchstaben pro Silbe. Um eine weitere Entropienäherung  $H_k$  mit größerem  $k$  zu erhalten, analysierte Küpfmüller zusätzlich die Wörter in deutschen Texten.  Er kam zu folgenden Ergebnissen:

  • Die  $322$  häufigsten Wörter liefern einen Entropiebeitrag von  $4.5 \ \rm bit/Wort$.
  • Die Beiträge der restlichen  $40\hspace{0.1cm}000$ Wörter  wurden geschätzt.  Angenommen wurde, dass die Häufigkeiten von seltenen Wörtern reziprok zu ihrer Ordnungszahl sind.
  • Mit diesen Voraussetzungen ergibt sich der mittlere Informationsgehalt (bezogen auf Wörter) zu ca.  $11 \ \rm bit/Wort$.


(5)  Die Auszählung „Buchstaben pro Wort” ergab im Mittel  $5.5$.  Analog zu Punkt  (3)  wurde so die Entropienäherung für  $k = 5.5$  angenähert. Küpfmüller gibt hierfür an:

$$H_{5.5} \approx {11}/{5.5}\approx 2\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$
Natürlich kann  $k$  gemäß  seiner Definition  nur ganzzahlige Werte annehmen.  Diese Gleichung ist deshalb so zu interpretieren, dass sich für  $H_5$  ein etwas größerer und für  $H_6$  ein etwas kleinerer Wert als  $2 \ {\rm bit/Buchstabe}$  ergeben wird.


Näherungswerte der Entropie der deutschen Sprache nach Küpfmüller

(6)  Man kann nun versuchen, aus diesen drei Punkten  $H_1$,  $H_3$,  $H_{5.5}$  durch Extrapolation den Endwert der Entropie für  $k \to \infty$  zu ermitteln.  In nebenstehender Grafik wird dies bei logarithmisch aufgetragener Abszisse verdeutlicht:

  • Die durchgehende Linie ist der Küpfmüllerschen Originalarbeit  [Küpf54][1]  entnommen und führt zum Entropie-Endwert  $H = 1.6 \ \rm bit/Buchstabe$.
  • Die grünen Kurven sind zwei Extrapolationsversuche (eines kontinuierlichen Funktionsverlaufes durch drei Punkte) des  $\rm LNTwww$–Autors.
  • Diese und die braunen Pfeile sollen eigentlich nur zeigen, dass eine solche Extrapolation  (vorsichtig formuliert)  etwas vage ist.


(7)  Küpfmüller versuchte anschließend, den von ihm mit dieser ersten Abschätzung gefundenen Endwert  $H = 1.6 \ \rm bit/Buchstabe$  mit völlig anderer Methodik – siehe nächster Abschnitt – zu verifizieren. Nach dieser Abschätzung revidierte er sein Ergebnis geringfügig auf 

$$H = 1.51 \ \rm bit/Buchstabe.$$


(8)  Claude E. Shannon hatte drei Jahre vorher nach völlig anderer Vorgehensweise für die englische Sprache den Entropiewert  $H ≈ 1 \ \rm bit/Buchstabe$  angegeben, allerdings unter Berücksichtigung des Leerzeichens.  Um seine Ergebnisse mit Shannom vergleichen zu können, hat Küpfmüller das Leerzeichen nachträglich in sein Ergebnis eingerechnet.

  • Der Korrekturfaktor ist der Quotient aus der mittleren Wortlänge ohne Berücksichtigung des Leerzeichens  $(5.5)$  und der mittleren Wortlänge mit Berücksichtigung des Leerzeichens  $(5.5+1 = 6.5)$.
  • Diese Korrektur führte zu Küpfmüllers endgültigem Ergebnis: 
$$H =1.51 \cdot {5.5}/{6.5}\approx 1.3\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$


Eine weitere Entropieabschätzung von Küpfmüller


Der Vollständigkeit halber seien hier noch Küpfmüllers Überlegungen dargelegt, die ihn zum Endergebnis  $H = 1.51 \ \rm bit/Buchstabe$  führten.  Da es für die Statistik von Wortgruppen oder ganzen Sätzen keine Unterlagen gab, schätzte er den Entropiewert der deutschen Sprache wie folgt ab:

  • Ein beliebiger zusammenhängender deutscher Text wird hinter einem bestimmten Wort abgedeckt.  Der vorhergehende Text wird gelesen, und der Leser soll versuchen, das folgende Wort aus dem Zusammenhang mit dem vorhergehenden Text zu ermitteln.
  • Bei sehr vielen solcher Versuche ergibt die prozentuale Zahl der Treffer ein Maß für die Bindungen zwischen Wörtern und Sätzen.  Es zeigt sich, dass bei ein und derselben Textart (Romane, wissenschaftliche Schriften, usw.) ein und desselben Autors relativ schnell  (bei etwa hundert bis zweihundert Versuchen)  ein konstanter Endwert dieses Trefferverhältnisses erreicht wird.
  • Das Trefferverhältnis hängt aber ziemlich stark von der Art des Textes ab.  Für verschiedene Texte ergeben sich Werte zwischen  $15\%$  und  $33\%$, mit dem Mittelwert bei  $22\%$.  Das heißt aber auch:   Im Durchschnitt können  $22\%$  der Wörter in einem deutschen Text aus dem Zusammenhang heraus ermittelt werden.
  • Anders ausgedrückt:   Die Wörterzahl eines langen Textes kann mit dem Faktor  $0.78$  reduziert werden, ohne dass der Nachrichtengehalt des Textes eine signifikante Einbuße erfährt.  Ausgehend vom Bezugswert  $H_{5.5} = 2 \ \rm bit/Buchstabe$  $($siehe Punkt  (5)  im letzten Abschnitt$)$  für ein mittellanges Wort ergibt sich somit die Entropie  $H ≈ 0.78 · 2 = 1.56 \ \rm bit/Buchstabe$.
  • Küpfmüller überprüfte diesen Wert mit einer vergleichbaren empirischen Untersuchung hinsichtlich der Silben und ermittelte so den Reduktionsfaktor  $0.54$  (hinsichtlich Silben).  Als Endergebnis nennt Küpfmüller  $H = 0.54 · H_3 ≈ 1.51 \ \rm bit/Buchstabe$, wobei  $H_3 ≈ 2.8 \ \rm bit/Buchstabe$  der Entropie einer Silbe mittlerer Länge  $($etwa drei Buchstaben, siehe Punkt  (3)  auf der letzten Seite$)$  entspricht.


Die vielleicht als sehr kritisch empfundenen Bemerkungen auf dieser und der vorherigen Seite sollen die Bedeutung von Küpfmüllers Entropieabschätzung nicht herabsetzen, eben so wenig wie Shannons Beiträge zur gleichen Thematik.

  • Sie sollen nur auf die großen Schwierigkeiten hinweisen, die bei dieser Aufgabenstellung auftreten.
  • Dies ist vielleicht auch der Grund dafür, dass sich seit den 1950er Jahren niemand mehr mit dieser Problematik intensiv beschäftigt hat.


Einige eigene Simulationsergebnisse


Die Angaben von Karl Küpfmüller hinsichtlich der Entropie der deutschen Sprache sollen nun mit einigen (sehr einfachen) Simulationsergebnissen verglichen werden, die vom Autor dieses Kapitels (Günter Söder) am Lehrstuhl für Nachrichtentechnik der Technischen Universität München im Rahmen eines Praktikums erarbeitet wurden.  Die Resultate basieren auf

  • dem Windows-Programm  WDIT  ⇒  der Link verweist auf die ZIP-Version des Programms;
  • der zugehörigen Praktikumsanleitung  Wertdiskrete Informationstheorie   ⇒   der Link verweist auf die PDF-Version;
  • der deutschen Bibel im ASCII–Format mit  $N \approx 4.37 \cdot 10^6$  Zeichen. Dies entspricht einem Buch mit  $1300$  Seiten bei  $42$  Zeilen pro Seite und  $80$  Zeichen pro Zeile.


Der Symbolumfang wurde auf  $M = 33$  reduziert und umfasst die Zeichen abc,  ... ,  xyzäöüß,  $\rm LZ$,  $\rm ZI$,  $\rm IP$.  Nicht unterschieden wurde bei unserer Analyse zwischen Groß– und Kleinbuchstaben.

Gegenüber Küpfmüllers Analyse wurden hier also noch zusätzlich berücksichtigt:

  • die deutschen Umlaute  äöü  und  ß, die etwa  $1.2\%$  des Bibeltextes ausmachen,
  • die Klasse  $\rm IP$  (Interpunktion) mit ca.  $3\%$,
  • die Klasse  $\rm ZI$  (Ziffer) mit ca.  $1.3\%$  wegen der Vers–Nummerierung innerhalb der Bibel,
  • das Leerzeichen  $\rm (LZ)$  als das häufigste Zeichen  $(17.8\%)$, noch vor dem „e”  $(12.8\%)$.


Die nachfolgende Tabelle fasst die Ergebnisse zusammen.  $N$  bezeichnet die jeweils analysierte Dateigröße in Schriftzeichen (Byte).  Der Entscheidungsgehalt  $H_0$  sowie die Entropienäherungen  $H_1$,  $H_2$  und  $H_3$  wurden jeweils aus  $N$  Schriftzeichen ermittelt und sind jeweils in „bit/Schriftzeichen” angegeben.

Entropiewerte (in bit/Schriftzeichen) der deutschen Bibel


  • Betrachten Sie diese Ergebnisse bitte nicht als wissenschaftliche Untersuchung.
  • Es ist nur der Versuch, Studierenden die behandelte Thematik in einem Praktikum näher zu bringen.
  • Grundlage dieser Untersuchung war die Bibel, da uns sowohl deren deutsche als auch die englische Fassung im geeigneten ASCII–Format zur Verfügung stand.


Die Ergebnisse obiger Tabelle lassen sich wie folgt zusammenfassen:

  • In allen Zeilen nehmen die Entropienäherungen  $H_k$  mit wachsendem  $k$  monoton ab.  Der Abfall verläuft konvex, das heißt, es ist  $H_1 - H_2 > H_2 - H_3$.  Die Extrapolation des Endwertes  $(k \to \infty)$  ist aus den jeweils ermittelten drei Entropienäherungen nicht (oder nur äußerst vage) möglich.
  • Verzichtet man auf die Auswertung der Ziffern  $(\rm ZI$, Zeile 2   ⇒   $M = 32)$  und zusätzlich auf die Auswertung der Interpunktionszeichen  $(\rm IP$, Zeile 3   ⇒   $M = 31)$, so nehmen die Entropienäherungen  $H_1$  $($um  $0.114)$,  $H_2$  $($um  $0.063)$  und  $H_3$  $($um  $0.038)$  ab.  Auf den Endwert  $H$  als dem Grenzwert von  $H_k$  für  $k \to \infty$  wirkt sich der Verzicht auf Ziffern und Interpunktion voraussichtlich kaum aus.
  • Lässt man bei der Auswertung noch das Leerzeichen  $(\rm LZ$, Zeile 4   ⇒   $M = 30)$  außer Betracht, so ergibt sich nahezu die gleiche Konstellation wie von Küpfmüller ursprünglich betrachtet. Der einzige Unterschied sind die eher seltenen deutschen Sonderzeichen äöü  und  ß.
  • Der in der letzten Zeile angegebene  $H_1$–Wert  $(4.132)$  stimmt mit dem von Küpfmüller ermittelten Wert  $H_1 ≈ 4.1$  sehr gut überein.  Hinsichtlich der  $H_3$–Werte gibt es aber deutliche Unterschiede:   Unsere Analyse ergibt  $H_3 ≈ 3.4$, während Küpfmüller  $H_3 ≈ 2.8$  nennt (alle Angaben in bit/Buchstabe).
  • Aus der Auftrittshäufigkeit des Leerzeichens  $(17.8\%)$  ergibt sich hier eine mittlere Wortlänge von  $1/0.178 - 1 ≈ 4.6$, ein kleinerer Wert als von Küpfmüller  ($5.5$)  angegeben.  Die Diskrepanz lässt sich zum Teil mit unserer Analysedatei „Bibel” erklären (viele Leerzeichen aufgrund der Vers–Nummerierung).
  • Interessant ist der Vergleich der Zeilen 3 und 4.  Berücksichtigt man das Leerzeichen, so wird zwar  $H_0$  von  $\log_2 \ (30) \approx 4.907$  auf  $\log_2 \ (31) \approx 4.954$  vergrößert, aber man verringert dadurch  $H_1$  $($um den Faktor  $0.98)$,  $H_2$  $($um  $0.96)$  und  $H_3$  $($um  $0.93)$. Küpfmüller hat diesen Faktor intuitiv mit  $85\%$  berücksichtigt.


Obwohl wir diese eigene Recherche als eher unbedeutend erachten, so glauben wir doch, dass für heutige Texte die von Shannon angegebenen  $1.0 \ \rm bit/Buchstabe$  für die englische Sprache und auch Küpfmüllers  $1.3 \ \rm bit/Buchstabe$  für die deutsche Sprache etwas zu niedrig sind, unter Anderem, weil

  • der Symbolumfang heute größer ist, als von Shannon und Küpfmüller in den 1950er Jahren berücksichtigt; zum Beispiel gilt für den ASCII–Zeichensatz  $M = 256$,
  • die vielfachen Formatierungsmöglichkeiten (Unterstreichungen, Fett- und Kursivschrift, Einrückungen, Farben) den Informationsgehalt eines Dokuments weiter erhöhen.


Synthetisch erzeugte Texte


In der Grafik sind künstlich erzeugte deutsche und englische Texte angegeben, die aus  [Küpf54][1]  entnommen sind.  Der zugrundeliegende Symbolumfang ist  $M = 27$,  das heißt, berücksichtigt sind alle Buchstaben  (auch bei „Deutsch” ohne Umlaute und ß)  sowie das Leerzeichen.

Künstlich erzeugte deutsche und englische Texte
  • Die  „Buchstabennäherung nullter Ordnung”  geht jeweils von gleichwahrscheinlichen Zeichen aus.  Es gibt deshalb keinen Unterschied zwischen Deutsch (rot) und Englisch (blau).


  • Die  „erste Buchstabennäherung”  berücksichtigt bereits die unterschiedlichen Häufigkeiten, die Näherungen höherer Ordnung auch die vorangegangenen Zeichen.


  • Bei der  „Synthese 4. Ordnung”  erkennt man schon sinnhafte Worte.  Hier hängt die Wahrscheinlichkeit für einen neuen Buchstaben von den drei letzten ausgewählten Zeichen ab.


  • Die  „Wortnäherung erster Ordnung”  synthetisiert Sätze gemäß den Wortwahrscheinlichkeiten. Die  „Wortnäherung zweiter Ordnung”  berücksichtigt auch das vorherige Wort.


Weitere Information zur synthetischen Erzeugung von deutschen und englischen Texten finden Sie in der  Aufgabe 1.8.


Aufgaben zum Kapitel


Aufgabe 1.7: Entropie natürlicher Texte

Aufgabe 1.8: Synthetisch erzeugte Texte


Quellenverzeichnis

  1. 1,0 1,1 1,2 Küpfmüller, K.: Die Entropie der deutschen Sprache. Fernmeldetechnische Zeitung 7, 1954, S. 265-272.