Aufgaben:Aufgabe 1.1: Wetterentropie: Unterschied zwischen den Versionen

Aus LNTwww
Wechseln zu:Navigation, Suche
 
(12 dazwischenliegende Versionen von 4 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
  
{{quiz-Header|Buchseite=Informationstheorie und Quellencodierung/Gedächtnislose Nachrichtenquellen
+
{{quiz-Header|Buchseite=Informationstheorie/Gedächtnislose Nachrichtenquellen
 
}}
 
}}
  
[[Datei:P_ID2233__Inf_A_1_1.png|right|]]
+
[[Datei:Inf_A_1_1_vers2.png|right|frame|Fünf verschiedene Binärquellen]]
:Eine Wetterstation fragt täglich verschiedene Regionen ab und bekommt als Antwort jeweils eine Meldung <i>x</i> zurück, nämlich
+
Eine Wetterstation fragt täglich verschiedene Regionen ab und bekommt als Antwort jeweils eine Meldung&nbsp;  $x$&nbsp; zurück, nämlich
  
:* <i>x</i> = <b>B</b>: Das Wetter ist eher schlecht.
+
* $x = \rm B$: &nbsp; Das Wetter ist eher schlecht.
 +
* $x =  \rm G$: &nbsp; Das Wetter ist eher gut.
  
:* <i>x</i> = <b>G</b>: Das Wetter ist eher gut.
 
  
:Die Daten wurden über viele Jahre für verschiedene Gebiete in Dateien abgelegt, so dass die Entropien der <b>B</b>/<b>G</b>&ndash;Folgen ermittelt werden können:
+
Die Daten wurden über viele Jahre für verschiedene Gebiete in Dateien abgelegt, so dass die Entropien der&nbsp; $\rm B/G$&ndash;Folgen ermittelt werden können:
 
:$$H =  p_{\rm B} \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{p_{\rm B}} + p_{\rm G} \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{p_{\rm G}}$$
 
:$$H =  p_{\rm B} \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{p_{\rm B}} + p_{\rm G} \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{p_{\rm G}}$$
  
:mit dem <i>Logarithmus dualis</i>
+
mit dem &bdquo;Logarithmus dualis&rdquo;
 
:$${\rm log}_2\hspace{0.1cm}p=\frac{{\rm lg}\hspace{0.1cm}p}{{\rm lg}\hspace{0.1cm}2}\hspace{0.3cm} \left ( =  {\rm ld}\hspace{0.1cm}p \right ) \hspace{0.05cm}.$$
 
:$${\rm log}_2\hspace{0.1cm}p=\frac{{\rm lg}\hspace{0.1cm}p}{{\rm lg}\hspace{0.1cm}2}\hspace{0.3cm} \left ( =  {\rm ld}\hspace{0.1cm}p \right ) \hspace{0.05cm}.$$
:&bdquo;lg&rdquo; kennzeichnet hierbei den Logarithmus zur Basis 10. Zu erwähnen ist ferner, dass jeweils noch die Pseudoeinheit &bdquo;bit/Anfrage&rdquo; anzufügen ist.
+
&bdquo;lg&rdquo;&nbsp; kennzeichnet hierbei den Logarithmus zur Basis&nbsp; $10$.&nbsp; Zu erwähnen ist ferner, dass jeweils noch die Pseudoeinheit&nbsp; $\text{bit/Anfrage}$ &nbsp;anzufügen ist.
  
:Die Grafik zeigt diese binären Folgen jeweils für 60 Tage und folgende Regionen:
+
Die Grafik zeigt diese binären Folgen jeweils für&nbsp; $60$&nbsp; Tage und folgende Regionen:
  
:* Region &bdquo;Durchwachsen&rdquo;: &nbsp;&nbsp;<i>p</i><sub>B</sub> = <i>p</i><sub>G</sub> = 0.5,
+
* Region &bdquo;Durchwachsen&rdquo;: &nbsp;&nbsp; $p_{\rm B} = p_{\rm G} =0.5$,
 +
* Region &bdquo;Regenloch&rdquo;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; $p_{\rm B} = 0.8, \; p_{\rm G} =0.2$,
 +
* Region &bdquo;Angenehm&rdquo;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; $p_{\rm B} = 0.2, \; p_{\rm G} =0.8$,
 +
* Region &bdquo;Paradies&rdquo;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; $p_{\rm B} = 1/30, \; p_{\rm G} =29/30$.
  
:* Region &bdquo;Regenloch&rdquo;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<i>p</i><sub>B</sub> = 0.8, <i>p</i><sub>G</sub> = 0.2,
 
  
:* Region &bdquo;Angenehm&rdquo;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<i>p</i><sub>B</sub> = 0.2, <i>p</i><sub>G</sub> = 0.8,
+
Schließlich ist auch noch die Datei &bdquo;Unbekannt&rdquo; angegeben, deren statistische Eigenschaften zu schätzen sind.
  
:* Region &bdquo;Paradies&rdquo;: &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<i>p</i><sub>B</sub> = 1/30, <i>p</i><sub>G</sub> = 29/30.
 
  
:Schließlich ist auch noch die Datei &bdquo;Unbekannt&rdquo; angegeben, deren statistische Eigenschaften zu schätzen sind.
 
  
:<b>Hinweis:</b> Die Aufgabe bezieht sich auf das Kapitel [http://www.lntwww.de/Informationstheorie_und_Quellencodierung/Gedächtnislose_Nachrichtenquellen Gedächtnislose Nachrichtenquellen]. Für die vier ersten Dateien wird vorausgesetzt, dass die Ereignisse &bdquo;B&rdquo; und &bdquo;G&rdquo; statistisch unabhängig seien, eine für die Wetterpraxis allerdings eher unrealistische Annahme.
+
 
 +
 
 +
 
 +
 
 +
 
 +
''Hinweise:''
 +
*Die Aufgabe gehört zum  Kapitel&nbsp; [[Informationstheorie/Gedächtnislose_Nachrichtenquellen|Gedächtnislose Nachrichtenquellen]].
 +
 +
*Für die vier ersten Dateien wird vorausgesetzt, dass die Ereignisse&nbsp; $\rm B$&nbsp; und&nbsp; $\rm G$&nbsp; statistisch unabhängig seien, eine für die Wetterpraxis eher unrealistische Annahme.
 +
 
 +
*Die Aufgabe wurde zu einer Zeit konzipiert, als&nbsp; [https://de.wikipedia.org/wiki/Greta_Thunberg Greta]&nbsp; gerade in die Schule kam.&nbsp; Wir überlassen es Ihnen,  &bdquo;Paradies&rdquo; in &bdquo;Hölle&rdquo; umzubenennen.
 +
 
 +
 
  
  
Zeile 35: Zeile 47:
  
 
<quiz display=simple>
 
<quiz display=simple>
{Welche Entropie $H_D$ weist die Datei "Durchwachsen" auf?
+
{Welche Entropie&nbsp; $H_{\rm D}$&nbsp; weist die Datei&nbsp; &bdquo;Durchwachsen"&nbsp; auf?
 
|type="{}"}
 
|type="{}"}
$H_D$ = { 1 3% } $\text{bit}/\text{Anfrage}$
+
$H_{\rm D}\ = \ $ { 1 3% } $\ \rm bit/Anfrage$
  
  
{Welche Entropie <i>H</i><sub>R</sub> weist die Datei &bdquo;Regenloch&rdquo; auf?
+
{Welche Entropie&nbsp; $H_{\rm R}$&nbsp; weist die Datei&nbsp; &bdquo;Regenloch&rdquo;&nbsp; auf?
 
|type="{}"}
 
|type="{}"}
$\text{H}_\text{R}$ = { 0.722 3% }  $\text{bit}/\text{Anfrage}$
+
$H_{\rm R}\ =  \ $ { 0.722 3% }  $\ \rm bit/Anfrage$
  
  
{Welche Entropie <i>H</i><sub>A</sub> weist die Datei &bdquo;Angenehm&rdquo; auf?
+
{Welche Entropie&nbsp; $H_{\rm A}$&nbsp; weist die Datei&nbsp; &bdquo;Angenehm&rdquo;&nbsp; auf?
 
|type="{}"}
 
|type="{}"}
$H_A$ = { 0.722 3% } $\text{bit}/\text{Anfrage}$
+
$H_{\rm A}\ =  \ $ { 0.722 3% } $\ \rm bit/Anfrage$
  
  
{Wie groß sind die Informationsgehalte der Ereignisse &bdquo;B&rdquo; und &bdquo;G&rdquo; bezogen auf die Datei &bdquo;Paradies&rdquo;?
+
{Wie groß sind die Informationsgehalte der Ereignisse&nbsp; $\rm B$&nbsp; und&nbsp; $\rm G$&nbsp; bezogen auf die Datei&nbsp; &bdquo;Paradies&rdquo;?
 
|type="{}"}
 
|type="{}"}
$I_B$ = { 4.907 3% } $\text{bit}/\text{Anfrage}$
+
$I_{\rm B}\ =  \ $ { 4.907 3% } $\ \rm bit/Anfrage$
$I_G$ = { 0.049 3% } $\text{bit}/\text{Anfrage}$
+
$I_{\rm G}\ =  \ $ { 0.049 3% } $\ \rm bit/Anfrage$
  
  
{Wie groß ist die Entropie (das heißt: der mittlere Informationsgehalt) <i>H</i><sub>P</sub> der Datei &bdquo;Paradies&rdquo;? Interpretieren Sie das Ergebnis?
+
{Wie groß ist die Entropie&nbsp; (das heißt:&nbsp; der mittlere Informationsgehalt)&nbsp; $H_{\rm P}$&nbsp; der Datei&nbsp; &bdquo;Paradies&rdquo;?&nbsp; Interpretieren Sie das Ergebnis?
 
|type="{}"}
 
|type="{}"}
$H_p$ = { 0 3% } $\text{bit}/\text{Anfrage}$
+
$H_{\rm P}\ =  \ $ { 0.211 3% } $\ \rm bit/Anfrage$
  
  
{Welche Aussagen könnten für die Datei &bdquo;Unbekannt&rdquo; gelten?
+
{Welche Aussagen könnten für die Datei&nbsp; &bdquo;Unbekannt&rdquo;&nbsp; gelten?
 
|type="[]"}
 
|type="[]"}
+ Die Ereignisse &bdquo;B&rdquo; und &bdquo;G&rdquo; sind etwa gleichwahrscheinlich.
+
+ Die Ereignisse&nbsp; $\rm B$&nbsp; und&nbsp; $\rm G$&nbsp; sind etwa gleichwahrscheinlich.
 
- Die Folgenelemente sind statistisch voneinander unabhängig.
 
- Die Folgenelemente sind statistisch voneinander unabhängig.
+ Die Entropie dieser Datei ist $\text{H}_\text{U} \approx 0.7 \text{bit}/\text{Anfrage}$.
+
+ Die Entropie dieser Datei ist&nbsp; $H_\text{U} \approx 0.7 \; \rm bit/Anfrage$.
- Die Entropie dieser Datei ist $\text{H}_\text{U}= 1.5 \text{bit}/\text{Anfrage}$.
+
- Die Entropie dieser Datei ist&nbsp; $H_\text{U} = 1.5 \; \rm bit/Anfrage$.
  
  
Zeile 74: Zeile 86:
 
===Musterlösung===
 
===Musterlösung===
 
{{ML-Kopf}}
 
{{ML-Kopf}}
<b>1.</b>&nbsp;&nbsp;Bei der Datei &bdquo;Durchwachsen&rdquo; sind die beiden Wahrscheinlichkeiten <i>p</i><sub>G</sub> und <i>p</i><sub>B</sub> gleich, jeweils 0.5. Damit ergibt sich für die Entropie:
+
'''(1)'''&nbsp; Bei der Datei&nbsp; &bdquo;Durchwachsen&rdquo;&nbsp; sind die beiden Wahrscheinlichkeiten gleich: &nbsp;  $p_{\rm B} = p_{\rm G} =0.5$.&nbsp; Damit ergibt sich für die Entropie:
 
:$$H_{\rm D} =  0.5 \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{0.5} + 0.5 \cdot  
 
:$$H_{\rm D} =  0.5 \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{0.5} + 0.5 \cdot  
 
{\rm log}_2\hspace{0.1cm}\frac{1}{0.5} \hspace{0.15cm}\underline {= 1\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$
 
{\rm log}_2\hspace{0.1cm}\frac{1}{0.5} \hspace{0.15cm}\underline {= 1\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$
  
:<b>2.</b>&nbsp;&nbsp;Mit <i>p</i><sub>B</sub> = 0.8 und <i>p</i><sub>G</sub> = 0.2 erhält man einen kleineren Entropiewert:
+
 
:$$H_{\rm R} \hspace{0.1cm} = \hspace{0.1cm} 0.8 \cdot {\rm log}_2\hspace{0.1cm}\frac{5}{4} + 0.2 \cdot {\rm log}_2\hspace{0.1cm}\frac{5}{1}=   
+
'''(2)'''&nbsp; Mit&nbsp; $p_{\rm B} = 0.8$&nbsp; und&nbsp; $p_{\rm G} =0.2$&nbsp; erhält man einen kleineren Entropiewert:
0.8 \cdot{\rm log}_2\hspace{0.1cm}5 - 0.8 \cdot {\rm log}_2\hspace{0.1cm}4 + 0.2 \cdot {\rm log}_2 \hspace{0.15cm} 5 =\\
+
:$$H_{\rm R} \hspace{-0.05cm}= \hspace{-0.05cm}0.8 \cdot {\rm log}_2\hspace{0.05cm}\frac{5}{4} \hspace{-0.05cm}+ \hspace{-0.05cm}0.2 \cdot {\rm log}_2\hspace{0.05cm}\frac{5}{1}\hspace{-0.05cm}=\hspace{-0.05cm}  
\hspace{0.1cm} = \hspace{0.1cm}{\rm log}_2\hspace{0.1cm}5 - 0.8 \cdot  
+
0.8 \cdot{\rm log}_2\hspace{0.05cm}5\hspace{-0.05cm} - \hspace{-0.05cm}0.8 \cdot {\rm log}_2\hspace{0.05cm}4 \hspace{-0.05cm}+ \hspace{-0.05cm}0.2 \cdot {\rm log}_2 \hspace{0.05cm} 5 \hspace{-0.05cm}=\hspace{-0.05cm}
{\rm log}_2\hspace{0.1cm}4 = \frac{{\rm lg} \hspace{0.1cm}5}{{\rm lg}\hspace{0.1cm}2} - 0.8 \cdot 2 = \frac{0.699}{0.301} - 1.6 \hspace{0.15cm}  
+
{\rm log}_2\hspace{0.05cm}5\hspace{-0.05cm} -\hspace{-0.05cm} 0.8 \cdot  
 +
{\rm log}_2\hspace{0.1cm}4\hspace{-0.05cm} = \hspace{-0.05cm} \frac{{\rm lg} \hspace{0.1cm}5}{{\rm lg}\hspace{0.1cm}2} \hspace{-0.05cm}-\hspace{-0.05cm} 1.6 \hspace{0.15cm}  
 
\underline {= 0.722\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$
 
\underline {= 0.722\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$
  
:<b>3.</b>&nbsp;&nbsp;In der Datei &bdquo;Angenehm&rdquo; sind die Wahrscheinlichkeiten gegenüber der Datei &bdquo;Regenloch&rdquo; genau vertauscht. Durch diese Vertauschung wird die Entropie nicht verändert:
+
 
 +
'''(3)'''&nbsp; In der Datei&nbsp; &bdquo;Angenehm&rdquo;&nbsp; sind die Wahrscheinlichkeiten gegenüber der Datei&nbsp; &bdquo;Regenloch&rdquo;&nbsp; genau vertauscht.&nbsp; Durch diese Vertauschung wird die Entropie jedoch nicht verändert:
 
:$$H_{\rm A} = H_{\rm R} \hspace{0.15cm} \underline {= 0.722\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$
 
:$$H_{\rm A} = H_{\rm R} \hspace{0.15cm} \underline {= 0.722\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$
  
:<b>4.</b>&nbsp;&nbsp; Mit <i>p</i><sub>B</sub> = 1/30 und <i>p</i><sub>G</sub> = 29/30 ergeben sich folgende Informationsgehalte:
+
 
 +
'''(4)'''&nbsp; Mit&nbsp; $p_{\rm B} = 1/30$&nbsp; und&nbsp; $p_{\rm G} =29/30$&nbsp; ergeben sich folgende Informationsgehalte:
 
:$$I_{\rm B} \hspace{0.1cm}  =  \hspace{0.1cm}  {\rm log}_2\hspace{0.1cm}30 =   
 
:$$I_{\rm B} \hspace{0.1cm}  =  \hspace{0.1cm}  {\rm log}_2\hspace{0.1cm}30 =   
 
  \frac{{\rm lg}\hspace{0.1cm}30}{{\rm lg}\hspace{0.1cm}2}  = \frac{1.477}{0.301} \hspace{0.15cm}  
 
  \frac{{\rm lg}\hspace{0.1cm}30}{{\rm lg}\hspace{0.1cm}2}  = \frac{1.477}{0.301} \hspace{0.15cm}  
\underline {= 4.907\,{\rm bit/Anfrage}}\hspace{0.05cm},\\
+
\underline {= 4.907\,{\rm bit/Anfrage}}\hspace{0.05cm},$$
I_{\rm G} \hspace{0.1cm}  =  \hspace{0.1cm}  {\rm log}_2\hspace{0.1cm}\frac{30}{29} =   
+
:$$I_{\rm G} \hspace{0.1cm}  =  \hspace{0.1cm}  {\rm log}_2\hspace{0.1cm}\frac{30}{29} =   
 
  \frac{{\rm lg}\hspace{0.1cm}1.034}{{\rm lg}\hspace{0.1cm}2}  = \frac{1.477}{0.301} \hspace{0.15cm}  
 
  \frac{{\rm lg}\hspace{0.1cm}1.034}{{\rm lg}\hspace{0.1cm}2}  = \frac{1.477}{0.301} \hspace{0.15cm}  
 
\underline {= 0.049\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$
 
\underline {= 0.049\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$
  
:<b>5.</b>&nbsp;&nbsp; Die Entropie <i>H</i><sub>P</sub> ist der mittlere Informationsgehalt der beiden Ereignisse &bdquo;B&rdquo; und &bdquo;G&rdquo;:
+
 
 +
'''(5)'''&nbsp; Die Entropie&nbsp; $H_{\rm P}$&nbsp; ist der mittlere Informationsgehalt der beiden Ereignisse&nbsp; $\rm B$&nbsp; und&nbsp; $\rm G$:
 
:$$H_{\rm P} = \frac{1}{30} \cdot 4.907 + \frac{29}{30} \cdot 0.049 = 0.164 + 0.047   
 
:$$H_{\rm P} = \frac{1}{30} \cdot 4.907 + \frac{29}{30} \cdot 0.049 = 0.164 + 0.047   
 
  \hspace{0.15cm}  
 
  \hspace{0.15cm}  
 
\underline {= 0.211\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$
 
\underline {= 0.211\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$
:Obwohl das Ereignis &bdquo;B&rdquo; seltener auftritt als &bdquo;G&rdquo;, ist sein Beitrag zur Entropie größer.
+
*Obwohl&nbsp; (genauer:&nbsp; weil)&nbsp; das Ereignis&nbsp; $\rm B$&nbsp; seltener auftritt als&nbsp; $\rm G$, ist sein Beitrag zur Entropie größer.
  
:<b>6.</b>&nbsp;&nbsp; Die Ereignisse &bdquo;B&rdquo; und &bdquo;G&rdquo; sind bei der Datei &bdquo;Unbekannt&rdquo; tatsächlich gleichwahrscheinlich: Die 60 dargestellten Symbole teilen sich auf in  30&nbsp;mal&nbsp;&bdquo;G&rdquo; und 30&nbsp;mal&nbsp;&bdquo;B&rdquo;. Es bestehen nun aber starke statistische Bindungen innerhalb der zeitlichen Folge. Nach längeren Schönwetterperioden folgen meist viele schlechte Tage am Stück.
 
  
:Aufgrund dieser statistischen Abhängigkeit innerhalb der <b>B</b>/<b>G</b>&ndash;Folge ist <i>H</i><sub>U</sub> &asymp; 0.72 bit/Anfrage kleiner als <i>H</i><sub>D</sub> = 1 bit/Anfrage. <i>H</i><sub>D</sub> ist gleichzeitig das Maximum für <i>M</i> = 2 &#8658; die letzte Aussage ist mit Sicherheit falsch. Richtig sind demnach die <u>Aussagen 1 und 3</u>.
+
'''(6)'''&nbsp; Richtig sind die <u>Aussagen 1 und 3</u>:
 +
*$\rm B$&nbsp; und&nbsp; $\rm G$&nbsp; sind bei der Datei &bdquo;Unbekannt&rdquo; tatsächlich gleichwahrscheinlich: &nbsp; Die&nbsp; $60$&nbsp; dargestellten Symbole teilen sich auf in&nbsp;  $30$&nbsp;mal&nbsp; $\rm B$&nbsp; und&nbsp; $30$&nbsp;mal&nbsp; $\rm G$.
 +
*Es bestehen nun aber starke statistische Bindungen innerhalb der zeitlichen Folge.&nbsp; Nach längeren Schönwetterperioden folgen meist viele schlechte Tage am Stück.
 +
*Aufgrund dieser statistischen Abhängigkeit innerhalb der&nbsp; $\rm B/G$&ndash;Folge ist&nbsp; $H_\text{U} = 0.722 \; \rm bit/Anfrage$&nbsp; kleiner als&nbsp; $H_\text{D} = 1 \; \rm bit/Anfrage$.  
 +
*$H_\text{D}$&nbsp; ist gleichzeitig das Maximum für&nbsp; $M = 2$ &nbsp;  &#8658; &nbsp; die letzte Aussage ist mit Sicherheit falsch.  
 
{{ML-Fuß}}
 
{{ML-Fuß}}
  

Aktuelle Version vom 28. Mai 2021, 12:32 Uhr

Fünf verschiedene Binärquellen

Eine Wetterstation fragt täglich verschiedene Regionen ab und bekommt als Antwort jeweils eine Meldung  $x$  zurück, nämlich

  • $x = \rm B$:   Das Wetter ist eher schlecht.
  • $x = \rm G$:   Das Wetter ist eher gut.


Die Daten wurden über viele Jahre für verschiedene Gebiete in Dateien abgelegt, so dass die Entropien der  $\rm B/G$–Folgen ermittelt werden können:

$$H = p_{\rm B} \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{p_{\rm B}} + p_{\rm G} \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{p_{\rm G}}$$

mit dem „Logarithmus dualis”

$${\rm log}_2\hspace{0.1cm}p=\frac{{\rm lg}\hspace{0.1cm}p}{{\rm lg}\hspace{0.1cm}2}\hspace{0.3cm} \left ( = {\rm ld}\hspace{0.1cm}p \right ) \hspace{0.05cm}.$$

„lg”  kennzeichnet hierbei den Logarithmus zur Basis  $10$.  Zu erwähnen ist ferner, dass jeweils noch die Pseudoeinheit  $\text{bit/Anfrage}$  anzufügen ist.

Die Grafik zeigt diese binären Folgen jeweils für  $60$  Tage und folgende Regionen:

  • Region „Durchwachsen”:    $p_{\rm B} = p_{\rm G} =0.5$,
  • Region „Regenloch”:             $p_{\rm B} = 0.8, \; p_{\rm G} =0.2$,
  • Region „Angenehm”:            $p_{\rm B} = 0.2, \; p_{\rm G} =0.8$,
  • Region „Paradies”:                $p_{\rm B} = 1/30, \; p_{\rm G} =29/30$.


Schließlich ist auch noch die Datei „Unbekannt” angegeben, deren statistische Eigenschaften zu schätzen sind.





Hinweise:

  • Für die vier ersten Dateien wird vorausgesetzt, dass die Ereignisse  $\rm B$  und  $\rm G$  statistisch unabhängig seien, eine für die Wetterpraxis eher unrealistische Annahme.
  • Die Aufgabe wurde zu einer Zeit konzipiert, als  Greta  gerade in die Schule kam.  Wir überlassen es Ihnen, „Paradies” in „Hölle” umzubenennen.



Fragebogen

1

Welche Entropie  $H_{\rm D}$  weist die Datei  „Durchwachsen"  auf?

$H_{\rm D}\ = \ $

$\ \rm bit/Anfrage$

2

Welche Entropie  $H_{\rm R}$  weist die Datei  „Regenloch”  auf?

$H_{\rm R}\ = \ $

$\ \rm bit/Anfrage$

3

Welche Entropie  $H_{\rm A}$  weist die Datei  „Angenehm”  auf?

$H_{\rm A}\ = \ $

$\ \rm bit/Anfrage$

4

Wie groß sind die Informationsgehalte der Ereignisse  $\rm B$  und  $\rm G$  bezogen auf die Datei  „Paradies”?

$I_{\rm B}\ = \ $

$\ \rm bit/Anfrage$
$I_{\rm G}\ = \ $

$\ \rm bit/Anfrage$

5

Wie groß ist die Entropie  (das heißt:  der mittlere Informationsgehalt)  $H_{\rm P}$  der Datei  „Paradies”?  Interpretieren Sie das Ergebnis?

$H_{\rm P}\ = \ $

$\ \rm bit/Anfrage$

6

Welche Aussagen könnten für die Datei  „Unbekannt”  gelten?

Die Ereignisse  $\rm B$  und  $\rm G$  sind etwa gleichwahrscheinlich.
Die Folgenelemente sind statistisch voneinander unabhängig.
Die Entropie dieser Datei ist  $H_\text{U} \approx 0.7 \; \rm bit/Anfrage$.
Die Entropie dieser Datei ist  $H_\text{U} = 1.5 \; \rm bit/Anfrage$.


Musterlösung

(1)  Bei der Datei  „Durchwachsen”  sind die beiden Wahrscheinlichkeiten gleich:   $p_{\rm B} = p_{\rm G} =0.5$.  Damit ergibt sich für die Entropie:

$$H_{\rm D} = 0.5 \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{0.5} + 0.5 \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{0.5} \hspace{0.15cm}\underline {= 1\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$


(2)  Mit  $p_{\rm B} = 0.8$  und  $p_{\rm G} =0.2$  erhält man einen kleineren Entropiewert:

$$H_{\rm R} \hspace{-0.05cm}= \hspace{-0.05cm}0.8 \cdot {\rm log}_2\hspace{0.05cm}\frac{5}{4} \hspace{-0.05cm}+ \hspace{-0.05cm}0.2 \cdot {\rm log}_2\hspace{0.05cm}\frac{5}{1}\hspace{-0.05cm}=\hspace{-0.05cm} 0.8 \cdot{\rm log}_2\hspace{0.05cm}5\hspace{-0.05cm} - \hspace{-0.05cm}0.8 \cdot {\rm log}_2\hspace{0.05cm}4 \hspace{-0.05cm}+ \hspace{-0.05cm}0.2 \cdot {\rm log}_2 \hspace{0.05cm} 5 \hspace{-0.05cm}=\hspace{-0.05cm} {\rm log}_2\hspace{0.05cm}5\hspace{-0.05cm} -\hspace{-0.05cm} 0.8 \cdot {\rm log}_2\hspace{0.1cm}4\hspace{-0.05cm} = \hspace{-0.05cm} \frac{{\rm lg} \hspace{0.1cm}5}{{\rm lg}\hspace{0.1cm}2} \hspace{-0.05cm}-\hspace{-0.05cm} 1.6 \hspace{0.15cm} \underline {= 0.722\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$


(3)  In der Datei  „Angenehm”  sind die Wahrscheinlichkeiten gegenüber der Datei  „Regenloch”  genau vertauscht.  Durch diese Vertauschung wird die Entropie jedoch nicht verändert:

$$H_{\rm A} = H_{\rm R} \hspace{0.15cm} \underline {= 0.722\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$


(4)  Mit  $p_{\rm B} = 1/30$  und  $p_{\rm G} =29/30$  ergeben sich folgende Informationsgehalte:

$$I_{\rm B} \hspace{0.1cm} = \hspace{0.1cm} {\rm log}_2\hspace{0.1cm}30 = \frac{{\rm lg}\hspace{0.1cm}30}{{\rm lg}\hspace{0.1cm}2} = \frac{1.477}{0.301} \hspace{0.15cm} \underline {= 4.907\,{\rm bit/Anfrage}}\hspace{0.05cm},$$
$$I_{\rm G} \hspace{0.1cm} = \hspace{0.1cm} {\rm log}_2\hspace{0.1cm}\frac{30}{29} = \frac{{\rm lg}\hspace{0.1cm}1.034}{{\rm lg}\hspace{0.1cm}2} = \frac{1.477}{0.301} \hspace{0.15cm} \underline {= 0.049\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$


(5)  Die Entropie  $H_{\rm P}$  ist der mittlere Informationsgehalt der beiden Ereignisse  $\rm B$  und  $\rm G$:

$$H_{\rm P} = \frac{1}{30} \cdot 4.907 + \frac{29}{30} \cdot 0.049 = 0.164 + 0.047 \hspace{0.15cm} \underline {= 0.211\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$
  • Obwohl  (genauer:  weil)  das Ereignis  $\rm B$  seltener auftritt als  $\rm G$, ist sein Beitrag zur Entropie größer.


(6)  Richtig sind die Aussagen 1 und 3:

  • $\rm B$  und  $\rm G$  sind bei der Datei „Unbekannt” tatsächlich gleichwahrscheinlich:   Die  $60$  dargestellten Symbole teilen sich auf in  $30$ mal  $\rm B$  und  $30$ mal  $\rm G$.
  • Es bestehen nun aber starke statistische Bindungen innerhalb der zeitlichen Folge.  Nach längeren Schönwetterperioden folgen meist viele schlechte Tage am Stück.
  • Aufgrund dieser statistischen Abhängigkeit innerhalb der  $\rm B/G$–Folge ist  $H_\text{U} = 0.722 \; \rm bit/Anfrage$  kleiner als  $H_\text{D} = 1 \; \rm bit/Anfrage$.
  • $H_\text{D}$  ist gleichzeitig das Maximum für  $M = 2$   ⇒   die letzte Aussage ist mit Sicherheit falsch.