Informationstheorie/Verschiedene Entropien zweidimensionaler Zufallsgrößen: Unterschied zwischen den Versionen

Aus LNTwww
Wechseln zu:Navigation, Suche
 
(10 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 9: Zeile 9:
 
==Definition der Entropie unter Verwendung von supp(<i>P<sub>XY</sub></i>)==  
 
==Definition der Entropie unter Verwendung von supp(<i>P<sub>XY</sub></i>)==  
 
<br>  
 
<br>  
Wir fassen die Ergebnisse des letzten Kapitels nochmals kurz zusammen, wobei wir von der zweidimensionalen Zufallsgröße $XY$ mit der Wahrscheinlichkeitsfunktion $P_{XY}(X, Y)$ ausgehen. Gleichzeitig verwenden wir die Schreibweise
+
Wir fassen die Ergebnisse des letzten Kapitels nochmals kurz zusammen, wobei wir von der zweidimensionalen Zufallsgröße&nbsp; $XY$&nbsp; mit der Wahrscheinlichkeitsfunktion&nbsp; $P_{XY}(X,\ Y)$&nbsp; ausgehen.&nbsp; Gleichzeitig verwenden wir die Schreibweise
 
   
 
   
:$${\rm supp} (P_{XY}) = \big \{ \hspace{0.05cm}(x, y) \in XY \hspace{0.05cm},
+
:$${\rm supp} (P_{XY}) = \big \{ \hspace{0.05cm}(x,\ y) \in XY \hspace{0.05cm},
\hspace{0.3cm} {\rm wobei} \hspace{0.15cm} P_{XY}(X, Y) \ne 0 \hspace{0.05cm} \big \} \hspace{0.05cm};$$
+
\hspace{0.3cm} {\rm wobei} \hspace{0.15cm} P_{XY}(X,\ Y) \ne 0 \hspace{0.05cm} \big \} \hspace{0.05cm}.$$
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
$\text{Zusammenfassende Darstellung des letzten Kapitels:}$&nbsp;
+
$\text{Zusammenfassende Darstellung des letzten Kapitels:}$&nbsp; Mit dieser Teilmenge&nbsp; $\text{supp}(P_{XY}) ⊂ P_{XY}$&nbsp; gilt für
+
*die&nbsp; '''Verbundentropie'''&nbsp; (englisch:&nbsp; "Joint Entropy"):
Mit dieser Teilmenge $\text{supp}(P_{XY}) ⊂ P_{XY}$ gilt für
 
*die '''Verbundentropie''' (englisch: ''Joint Entropy''):
 
 
   
 
   
 
:$$H(XY) = {\rm E}\hspace{-0.1cm} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{XY}(X, Y)}\right ] =\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.05cm})}  
 
:$$H(XY) = {\rm E}\hspace{-0.1cm} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{XY}(X, Y)}\right ] =\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.05cm})}  
 
  \hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{XY}(x, y)} \hspace{0.05cm}.$$
 
  \hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{XY}(x, y)} \hspace{0.05cm}.$$
  
*die '''Entropien der 1D–Zufallsgrößen''' $X$ und $Y$:
+
*die&nbsp; '''Entropien der 1D–Zufallsgrößen'''&nbsp; $X$&nbsp; und&nbsp; $Y$:
 
    
 
    
 
:$$H(X) = {\rm E}\hspace{-0.1cm} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{X}(X)}\right ] =\hspace{-0.2cm} \sum_{x \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{X})}  
 
:$$H(X) = {\rm E}\hspace{-0.1cm} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{X}(X)}\right ] =\hspace{-0.2cm} \sum_{x \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{X})}  
Zeile 32: Zeile 30:
  
 
{{GraueBox|TEXT=
 
{{GraueBox|TEXT=
$\text{Beispiel 1:}$&nbsp; Wir beziehen uns nochmals auf die Beispiele auf der Seite [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|Verbundwahrscheinlichkeit und Verbundentropie]] im letzten Kapitel.   
+
$\text{Beispiel 1:}$&nbsp; Wir beziehen uns nochmals auf die Beispiele auf der Seite&nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|Verbundwahrscheinlichkeit und Verbundentropie]]&nbsp; im letzten Kapitel.   
  
Bei der 2D–Wahrscheinlichkeitsfunktion $P_{RB}(R, B)$ im dortigen  [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|$\text{Beispiel 5}$]] mit den Parametern   
+
Bei der 2D–Wahrscheinlichkeitsfunktion&nbsp; $P_{RB}(R, B)$&nbsp; im dortigen&nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|$\text{Beispiel 5}$]]&nbsp; mit den Parametern   
 
*$R$ &nbsp; &rArr; &nbsp;  Augenzahl des roten Würfels und  
 
*$R$ &nbsp; &rArr; &nbsp;  Augenzahl des roten Würfels und  
 
*$B$ &nbsp; &rArr; &nbsp;  Augenzahl des blauen Würfels  
 
*$B$ &nbsp; &rArr; &nbsp;  Augenzahl des blauen Würfels  
  
  
sind die Mengen $P_{RB}$ und $\text{supp}(P_{RB})$ identisch. Hier sind alle $6^2 = 36$ Felder mit Werten ungleich Null belegt.
+
sind die Mengen&nbsp; $P_{RB}$&nbsp; und&nbsp; $\text{supp}(P_{RB})$&nbsp; identisch.&nbsp; Hier sind alle&nbsp; $6^2 = 36$&nbsp; Felder mit Werten ungleich Null belegt.
  
Bei der 2D&ndash;Wahrscheinlichkeitsfunktion $P_{RS}(R, S)$  im [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|$\text{Beispiel 6}$]] mit den Parametern   
+
Bei der 2D&ndash;Wahrscheinlichkeitsfunktion&nbsp; $P_{RS}(R, S)$&nbsp; im&nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|$\text{Beispiel 6}$]]&nbsp; mit den Parametern   
 
*$R$ &nbsp; &rArr; &nbsp;  Augenzahl des roten Würfels und   
 
*$R$ &nbsp; &rArr; &nbsp;  Augenzahl des roten Würfels und   
 
*$S = R + B$ &nbsp; &rArr; &nbsp; Summe der beiden Würfel  
 
*$S = R + B$ &nbsp; &rArr; &nbsp; Summe der beiden Würfel  
  
  
gibt es $6 · 11 = 66$ Felder, von denen allerdings viele leer sind, also für die  Wahrscheinlichkeit &bdquo;0&rdquo; stehen.  
+
gibt es&nbsp; $6 · 11 = 66$ Felder, von denen allerdings viele leer sind, also für die  Wahrscheinlichkeit&nbsp; &bdquo;0&rdquo;&nbsp; stehen.  
*Die Teilmenge $\text{supp}(P_{RS})$ beinhaltet dagegen nur die $36$ schraffierten Felder mit von Null verschiedenen Wahrscheinlichkeiten.
+
*Die Teilmenge&nbsp; $\text{supp}(P_{RS})$&nbsp; beinhaltet dagegen nur die&nbsp; $36$&nbsp; schraffierten Felder mit von Null verschiedenen Wahrscheinlichkeiten.
*Die Entropie bleibt gleich, ganz egal, ob man die Mittelung über alle Elemente von $P_{RS}$ oder nur über die Elemente von $\text{supp}(P_{RS})$ erstreckt, da für $x → 0$ der Grenzwert $x · \log_2 ({1}/{x}) = 0$  ist.}}
+
*Die Entropie bleibt gleich, ganz egal, ob man die Mittelung über alle Elemente von&nbsp; $P_{RS}$&nbsp; oder nur über die Elemente von&nbsp; $\text{supp}(P_{RS})$&nbsp; erstreckt,&nbsp; da für&nbsp; $x → 0$&nbsp; der Grenzwert&nbsp; $x · \log_2 ({1}/{x}) = 0$&nbsp; ist.}}
  
  
 
==Bedingte Wahrscheinlichkeit und bedingte Entropie ==  
 
==Bedingte Wahrscheinlichkeit und bedingte Entropie ==  
 
<br>  
 
<br>  
Im Buch &bdquo;Stochastische Signaltheorie&rdquo; wurden für den Fall zweier Ereignisse $X$ und $Y$ die folgenden [[Stochastische_Signaltheorie/Statistische_Abhängigkeit_und_Unabhängigkeit#Bedingte_Wahrscheinlichkeit|bedingten Wahrscheinlichkeiten]] angegeben &nbsp;  ⇒  &nbsp; '''Satz von Bayes''':
+
Im Buch &bdquo;Stochastische Signaltheorie&rdquo; wurden für den Fall zweier Ereignisse&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; die folgenden&nbsp; [[Stochastische_Signaltheorie/Statistische_Abhängigkeit_und_Unabhängigkeit#Bedingte_Wahrscheinlichkeit|bedingten Wahrscheinlichkeiten]]&nbsp; angegeben &nbsp;  ⇒  &nbsp; '''Satz von Bayes''':
 
   
 
   
 
:$${\rm Pr} (X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y)  = \frac{{\rm Pr} (X \cap  Y)}{{\rm Pr} (Y)} \hspace{0.05cm}, \hspace{0.5cm}
 
:$${\rm Pr} (X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y)  = \frac{{\rm Pr} (X \cap  Y)}{{\rm Pr} (Y)} \hspace{0.05cm}, \hspace{0.5cm}
Zeile 63: Zeile 61:
 
P_{\hspace{0.03cm}Y \mid \hspace{0.03cm} X} (Y \hspace{-0.05cm}\mid \hspace{-0.05cm} X)  =  \frac{P_{XY}(X, Y)}{P_{X}(X)} \hspace{0.05cm}.$$
 
P_{\hspace{0.03cm}Y \mid \hspace{0.03cm} X} (Y \hspace{-0.05cm}\mid \hspace{-0.05cm} X)  =  \frac{P_{XY}(X, Y)}{P_{X}(X)} \hspace{0.05cm}.$$
  
Analog zur [[Informationstheorie/Verschiedene_Entropien_zweidimensionaler_Zufallsgrößen#Definition_der_Entropie_unter_Verwendung_von_supp.28PXY.29|Verbundentropie]] $H(XY)$ lassen sich hier folgende Entropiefunktionen ableiten:
+
Analog zur&nbsp; [[Informationstheorie/Verschiedene_Entropien_zweidimensionaler_Zufallsgrößen#Definition_der_Entropie_unter_Verwendung_von_supp.28PXY.29|Verbundentropie]]&nbsp; $H(XY)$&nbsp; lassen sich hier folgende Entropiefunktionen ableiten:
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
 
$\text{Definitionen:}$&nbsp;
 
$\text{Definitionen:}$&nbsp;
*Die '''bedingte Entropie''' (englisch: ''Conditional Entropy'') der Zufallsgröße $X$ unter der Bedingung $Y$ lautet:
+
*Die&nbsp; '''bedingte Entropie'''&nbsp; (englisch:&nbsp; "Conditional Entropy")&nbsp; der Zufallsgröße&nbsp; $X$&nbsp; unter der Bedingung&nbsp; $Y$&nbsp; lautet:
 
   
 
   
 
:$$H(X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm}\frac{1}{P_{\hspace{0.03cm}X \mid \hspace{0.03cm} Y} (X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y)}\right ] = \hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})}  
 
:$$H(X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm}\frac{1}{P_{\hspace{0.03cm}X \mid \hspace{0.03cm} Y} (X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y)}\right ] = \hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})}  
Zeile 74: Zeile 72:
 
  \hspace{0.05cm}.$$
 
  \hspace{0.05cm}.$$
  
*In gleicher Weise erhält man für die '''zweite bedingte Entropie''':
+
*In gleicher Weise erhält man für die&nbsp; '''zweite bedingte Entropie''':
 
   
 
   
 
:$$H(Y \hspace{-0.1cm}\mid \hspace{-0.05cm} X) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm}\frac{1}{P_{\hspace{0.03cm}Y\hspace{0.03cm} \mid \hspace{0.01cm} X} (Y \hspace{-0.08cm}\mid \hspace{-0.05cm}X)}\right ] =\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})}  
 
:$$H(Y \hspace{-0.1cm}\mid \hspace{-0.05cm} X) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm}\frac{1}{P_{\hspace{0.03cm}Y\hspace{0.03cm} \mid \hspace{0.01cm} X} (Y \hspace{-0.08cm}\mid \hspace{-0.05cm}X)}\right ] =\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})}  
Zeile 82: Zeile 80:
  
  
Im Argument der Logarithmusfunktion steht stets eine bedingte Wahrscheinlichkeitsfunktion &nbsp; ⇒ &nbsp; $P_{X\hspace{0.03cm}| \hspace{0.03cm}Y}(·)$ bzw. $P_{Y\hspace{0.03cm}|\hspace{0.03cm}X}(·)$, während zur Erwartungswertbildung die Verbundwahrscheinlichkeit &nbsp; ⇒ &nbsp; $P_{XY}(·)$ benötigt wird.
+
Im Argument der Logarithmusfunktion steht stets eine bedingte Wahrscheinlichkeitsfunktion &nbsp; ⇒ &nbsp; $P_{X\hspace{0.03cm}| \hspace{0.03cm}Y}(·)$&nbsp; bzw.&nbsp; $P_{Y\hspace{0.03cm}|\hspace{0.03cm}X}(·)$, während zur Erwartungswertbildung die Verbundwahrscheinlichkeit &nbsp; ⇒ &nbsp; $P_{XY}(·)$ benötigt wird.
  
 
Für die bedingten Entropien gibt es folgende Begrenzungen:
 
Für die bedingten Entropien gibt es folgende Begrenzungen:
*Sowohl $H(X|Y)$ als auch $H(Y|X)$ sind stets größer oder gleich Null. Aus $H(X|Y) = 0$ folgt direkt auch $H(Y|X) = 0$. Beides ist nur für [[Stochastische_Signaltheorie/Mengentheoretische_Grundlagen#Disjunkte_Mengen|disjunkte Mengen]] $X$ und $Y$ möglich.
+
*Sowohl&nbsp; $H(X|Y)$&nbsp; als auch&nbsp; $H(Y|X)$&nbsp; sind stets größer oder gleich Null.&nbsp; Aus&nbsp; $H(X|Y) = 0$&nbsp; folgt direkt auch&nbsp; $H(Y|X) = 0$.&nbsp; Beides ist nur für&nbsp; [[Stochastische_Signaltheorie/Mengentheoretische_Grundlagen#Disjunkte_Mengen|disjunkte Mengen]]&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; möglich.
*Es gilt stets $H(X|Y) ≤ H(X)$ sowie $H(Y|X) ≤ H(Y)$. Diese Aussagen sind einleuchtend, wenn man sich bewusst macht, dass man für &bdquo;Entropie&rdquo; synonym auch &bdquo;Unsicherheit&rdquo; verwenden kann.
+
*Es gilt stets&nbsp; $H(X|Y) ≤ H(X)$&nbsp; sowie&nbsp; $H(Y|X) ≤ H(Y)$.&nbsp; Diese Aussagen sind einleuchtend, wenn man sich bewusst macht, dass man für &bdquo;Entropie&rdquo; synonym auch &bdquo;Unsicherheit&rdquo; verwenden kann.&nbsp; Denn: &nbsp; Die Unsicherheit bezüglich der Menge&nbsp; $X$&nbsp; kann nicht dadurch größer werden, dass man&nbsp; $Y$&nbsp; kennt.&nbsp;
*Denn: &nbsp; Die Unsicherheit bezüglich der Menge  $X$ kann nicht dadurch größer werden, dass man $Y$ kennt. Außer bei statistischer Unabhängigkeit  &nbsp; ⇒ &nbsp;  $H(X|Y) = H(X)$ gilt stets $H(X|Y) < H(X)$.
+
*Außer bei statistischer Unabhängigkeit  &nbsp; ⇒ &nbsp;  $H(X|Y) = H(X)$&nbsp; gilt stets&nbsp; $H(X|Y) < H(X)$.&nbsp; Wegen&nbsp; $H(X) ≤ H(XY)$&nbsp; und&nbsp; $H(Y) ≤ H(XY)$&nbsp; gilt somit auch&nbsp; $H(X|Y) ≤ H(XY)$&nbsp; und&nbsp; $H(Y|X) ≤ H(XY)$.&nbsp; Eine bedingte Entropie kann also nie größer werden als die Verbundentropie.
*Wegen $H(X) ≤ H(XY)$ und $H(Y) ≤ H(XY)$ gilt somit auch $H(X|Y) ≤ H(XY)$ und $H(Y|X) ≤ H(XY)$. Eine bedingte Entropie kann also nie größer werden als die Verbundentropie.
 
  
  
 
{{GraueBox|TEXT=
 
{{GraueBox|TEXT=
$\text{Beispiel 2:}$&nbsp; Wir betrachten die Verbundwahrscheinlichkeiten $P_{RS}(·)$ unseres Würfelexperiments, die im [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|letzten Kapitel]] als $\text{Beispiel 6}$ ermittelt wurden. In der Mitte der folgenden Grafik ist $P_{RS}(·)$ nochmals angegeben.
+
$\text{Beispiel 2:}$&nbsp; Wir betrachten die Verbundwahrscheinlichkeiten&nbsp; $P_{RS}(·)$&nbsp; unseres Würfelexperiments, die im&nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|letzten Kapitel]]&nbsp; als&nbsp; $\text{Beispiel 6}$&nbsp; ermittelt wurden.&nbsp; In der Mitte der folgenden Grafik ist die damals berechnete Verbundwahrscheinlichkeit&nbsp; $P_{RS}(·)$&nbsp; nochmals angegeben.
 +
 
 +
[[Datei:P_ID2764__Inf_T_3_2_S3.png|right|frame|Verbundwahrscheinlichkeiten&nbsp; $P_{RS}$&nbsp; und bedingte Wahrscheinlichkeiten&nbsp;  $P_{S \vert R}$&nbsp; und&nbsp; $P_{R \vert S}$]]
  
[[Datei:P_ID2764__Inf_T_3_2_S3.png|center|frame|Verbundwahrscheinlichkeiten $P_{RS}$ und bedingte Wahrscheinlichkeiten  $P_{S \vert R}$ und $P_{R \vert S}$]]
+
Außen sind die beiden bedingten Wahrscheinlichkeitsfunktionen dargestellt:
  
Außen sind die beiden bedingten Wahrscheinlichkeitsfunktionen gezeichnet:
+
$\rm Links$&nbsp; angegeben ist die bedingte Wahrscheinlichkeitsfunktion&nbsp;
*Links angegeben ist die bedingte Wahrscheinlichkeitsfunktion $P_{S \vert R}(⋅) = P_{SR}(⋅)/P_R(⋅)$. Wegen $P_R(R) = \big [1/6, \ 1/6, \ 1/6, \ 1/6, \ 1/6, \ 1/6 \big ]$ steht hier in allen schraffierten Feldern &nbsp; ⇒ &nbsp; $\text{supp}(P_{S\vert R}) = \text{supp}(P_{R\vert S})$ der gleiche Wahrscheinlichkeitswert $1/6$. Daraus folgt für die bedingte Entropie:
+
:$$P_{S \vert R}(⋅) = P_{SR}(⋅)/P_R(⋅).$$  
 +
*Wegen&nbsp; $P_R(R) = \big [1/6, \ 1/6, \ 1/6, \ 1/6, \ 1/6, \ 1/6 \big ]$&nbsp; steht hier in allen schraffierten Feldern &nbsp; ⇒ &nbsp; $\text{supp}(P_{S\vert R}) = \text{supp}(P_{R\vert S})$&nbsp; der gleiche Wahrscheinlichkeitswert&nbsp; $1/6$.&nbsp;
 +
*Daraus folgt für die bedingte Entropie:
 
   
 
   
 
:$$H(S \hspace{-0.1cm}\mid \hspace{-0.13cm} R) = \hspace{-0.2cm} \sum_{(r, s) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{RS})}  
 
:$$H(S \hspace{-0.1cm}\mid \hspace{-0.13cm} R) = \hspace{-0.2cm} \sum_{(r, s) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{RS})}  
  \hspace{-0.6cm} P_{RS}(r, s) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.03cm}S \hspace{0.03cm} \mid \hspace{0.03cm} R} (s \hspace{-0.05cm}\mid \hspace{-0.05cm} r)} =
+
  \hspace{-0.6cm} P_{RS}(r, s) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.03cm}S \hspace{0.03cm} \mid \hspace{0.03cm} R} (s \hspace{-0.05cm}\mid \hspace{-0.05cm} r)} $$
36 \cdot \frac{1}{36} \cdot {\rm log}_2 \hspace{0.1cm} (6) = 2.585\,{\rm bit}
+
:$$\Rightarrow \hspace{0.3cm}H(S \hspace{-0.1cm}\mid \hspace{-0.13cm} R) =
 +
36 \cdot \frac{1}{36} \cdot {\rm log}_2 \hspace{0.1cm} (6) = 2.585\ {\rm bit}
 
\hspace{0.05cm}.$$
 
\hspace{0.05cm}.$$
  
*Rechts ist die bedingte Wahrscheinlichkeitsfunktion $P_{R\vert S}(⋅) = P_{RS}(⋅)/P_S(⋅)$ mit $P_S(⋅)$ angegeben. Gemäß $\text{Beispiel 6}$ ergeben sich die gleichen Felder ungleich Null &nbsp; ⇒ &nbsp; $\text{supp}(P_{R\vert S}) = \text{supp}(P_{S\vert R})$. Die Wahrscheinlichkeitswerte nehmen nun aber von der Mitte ($1/6$) zu den Rändern hin bis zur Wahrscheinlichkeit $1$ in den Ecken kontinuierlich zu. Daraus folgt:
+
$\rm Rechts$&nbsp; ist&nbsp; $P_{R\vert S}(⋅) = P_{RS}(⋅)/P_S(⋅)$&nbsp; angegeben, wobei&nbsp; $P_S(⋅)$&nbsp; gemäß&nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|$\text{Beispiel 6}$]]&nbsp; einzusetzen ist.&nbsp;
 +
*Es  ergeben sich die gleichen Felder ungleich Null &nbsp; ⇒ &nbsp; $\text{supp}(P_{R\vert S}) = \text{supp}(P_{S\vert R})$.&nbsp;
 +
* Die Wahrscheinlichkeitswerte nehmen nun aber von der Mitte&nbsp; $(1/6)$&nbsp; zu den Rändern hin bis zur Wahrscheinlichkeit&nbsp; $1$&nbsp; in den Ecken kontinuierlich zu.&nbsp; Daraus folgt:
 
   
 
   
 
:$$H(R \hspace{-0.1cm}\mid \hspace{-0.13cm} S)  = \frac{1}{36} \cdot {\rm log}_2 \hspace{0.1cm} (6) +
 
:$$H(R \hspace{-0.1cm}\mid \hspace{-0.13cm} S)  = \frac{1}{36} \cdot {\rm log}_2 \hspace{0.1cm} (6) +
\frac{2}{36} \cdot  \sum_{i=1}^5 \big [ i \cdot {\rm log}_2 \hspace{0.1cm} (i) \big ]= 1.896\,{\rm bit} \hspace{0.05cm}.$$
+
\frac{2}{36} \cdot  \sum_{i=1}^5 \big [ i \cdot {\rm log}_2 \hspace{0.1cm} (i) \big ]= 1.896\ {\rm bit} \hspace{0.05cm}.$$
  
Für die bedingten Wahrscheinlichkeiten der 2D&ndash;Zufallsgröße $RB$ gemäß $\text{Beispiel 5}$ erhält man  dagegen wegen $P_{RB}(⋅) = P_R(⋅) · P_B(⋅)$:
+
Für die bedingten Wahrscheinlichkeiten der 2D&ndash;Zufallsgröße&nbsp; $RB$&nbsp; gemäß&nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|$\text{Beispiel 5}$]]&nbsp; erhält man  dagegen wegen&nbsp; $P_{RB}(⋅) = P_R(⋅) · P_B(⋅)$:
 
   
 
   
:$$\begin{align*}H(B \hspace{-0.1cm}\mid \hspace{-0.13cm} R)  \hspace{-0.15cm} & =  \hspace{-0.15cm} H(B) = {\rm log}_2 \hspace{0.1cm} (6) = 2.585\,{\rm bit} \hspace{0.05cm},\\
+
:$$\begin{align*}H(B \hspace{-0.1cm}\mid \hspace{-0.13cm} R)  \hspace{-0.15cm} & =  \hspace{-0.15cm} H(B) = {\rm log}_2 \hspace{0.1cm} (6) = 2.585\ {\rm bit} \hspace{0.05cm},\\
H(R \hspace{-0.1cm}\mid \hspace{-0.13cm} B)  \hspace{-0.15cm} & = \hspace{-0.15cm} H(R) = {\rm log}_2 \hspace{0.1cm} (6) = 2.585\,{\rm bit} \hspace{0.05cm}.\end{align*}$$}}
+
H(R \hspace{-0.1cm}\mid \hspace{-0.13cm} B)  \hspace{-0.15cm} & = \hspace{-0.15cm} H(R) = {\rm log}_2 \hspace{0.1cm} (6) = 2.585\ {\rm bit} \hspace{0.05cm}.\end{align*}$$}}
  
 
 
 
 
Zeile 118: Zeile 122:
 
==Transinformation zwischen zwei Zufallsgrößen==  
 
==Transinformation zwischen zwei Zufallsgrößen==  
 
<br>  
 
<br>  
Wir betrachten die Zufallsgröße $XY$ mit der 2D–Wahrscheinlichkeitsfunktion $P_{XY}(X, Y)$. Bekannt seien auch die 1D–Funktionen $P_X(X)$ und $P_Y(Y)$.  
+
Wir betrachten die Zufallsgröße&nbsp; $XY$&nbsp; mit der 2D–Wahrscheinlichkeitsfunktion&nbsp; $P_{XY}(X, Y)$.&nbsp; Bekannt seien auch die 1D–Funktionen&nbsp; $P_X(X)$&nbsp; und&nbsp; $P_Y(Y)$.  
  
 
Nun stellen sich folgende Fragen:
 
Nun stellen sich folgende Fragen:
*Wie vermindert die Kenntnis der Zufallsgröße $Y$ die Unsicherheit bezüglich $X$?
+
*Wie vermindert die Kenntnis der Zufallsgröße&nbsp; $Y$&nbsp; die Unsicherheit bezüglich&nbsp; $X$?
*Wie vermindert die Kenntnis der Zufallsgröße $X$ die Unsicherheit bezüglich $Y$?
+
*Wie vermindert die Kenntnis der Zufallsgröße&nbsp; $X$&nbsp; die Unsicherheit bezüglich&nbsp; $Y$?
  
  
Zeile 128: Zeile 132:
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
$\text{Definition:}$&nbsp; Die '''Transinformation''' (englisch: ''Mutual Information'') zwischen den Zufallsgrößen $X$ und $Y$ – beide über dem gleichen Alphabet – ist wie folgt gegeben:
+
$\text{Definition:}$&nbsp; Die&nbsp; '''Transinformation'''&nbsp; (englisch:&nbsp; "Mutual Information")&nbsp; zwischen den Zufallsgrößen&nbsp; $X$&nbsp; und&nbsp; $Y$ – beide über dem gleichen Alphabet – ist wie folgt gegeben:
 
   
 
   
:$$I(X;Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.08cm} \frac{P_{XY}(X, Y)}
+
:$$I(X;\ Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.08cm} \frac{P_{XY}(X, Y)}
 
{P_{X}(X) \cdot P_{Y}(Y) }\right ] =\hspace{-0.25cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY})}  
 
{P_{X}(X) \cdot P_{Y}(Y) }\right ] =\hspace{-0.25cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY})}  
 
  \hspace{-0.8cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.08cm} \frac{P_{XY}(x, y)}
 
  \hspace{-0.8cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.08cm} \frac{P_{XY}(x, y)}
 
{P_{X}(x) \cdot P_{Y}(y) } \hspace{0.01cm}.$$
 
{P_{X}(x) \cdot P_{Y}(y) } \hspace{0.01cm}.$$
  
Ein Vergleich mit dem [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Einf.C3.BChrungsbeispiel_zur_statistischen_Abh.C3.A4ngigkeit_von_Zufallsgr.C3.B6.C3.9Fen|letzten Kapitel]] zeigt, dass die Transinformation auch als [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Relative_Entropie_.E2.80.93_Kullback.E2.80.93Leibler.E2.80.93Distanz|Kullback–Leibler–Distanz]] zwischen der 2D–PMF $P_{XY}$ und dem Produkt $P_X · P_Y$ geschrieben werden kann:
+
Ein Vergleich mit dem&nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Einf.C3.BChrungsbeispiel_zur_statistischen_Abh.C3.A4ngigkeit_von_Zufallsgr.C3.B6.C3.9Fen|letzten Kapitel]]&nbsp; zeigt, dass die Transinformation auch als&nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Relative_Entropie_.E2.80.93_Kullback.E2.80.93Leibler.E2.80.93Distanz|Kullback–Leibler–Distanz]]&nbsp; zwischen der 2D–PMF&nbsp; $P_{XY}$&nbsp; und dem Produkt&nbsp; $P_X · P_Y$&nbsp; geschrieben werden kann:
 
   
 
   
 
:$$I(X;Y) = D(P_{XY} \hspace{0.05cm}\vert \vert \hspace{0.05cm} P_X \cdot P_Y) \hspace{0.05cm}.$$
 
:$$I(X;Y) = D(P_{XY} \hspace{0.05cm}\vert \vert \hspace{0.05cm} P_X \cdot P_Y) \hspace{0.05cm}.$$
  
Es ist somit offensichtlich, dass stets $I(X; Y) ≥ 0$ gilt. Wegen der Symmetrie ist auch $I(Y; X)$ = $I(X; Y)$.}}
+
Es ist somit offensichtlich, dass stets&nbsp; $I(X;\ Y) ≥ 0$&nbsp; gilt.&nbsp; Wegen der Symmetrie ist auch&nbsp; $I(Y;\ X)$ = $I(X;\ Y)$.}}
  
  
Sucht man in einem Wörterbuch die Übersetzung für „mutual”, so findet man unter Anderem die Begriffe „gemeinsam”, „gegenseitig”, „beidseitig” und „wechselseitig”. Und ebenso sind in Fachbüchern für $I(X; Y)$ auch die Bezeichnungen ''gemeinsame Entropie'' und ''gegenseitige Entropie'' üblich. Wir sprechen aber im Folgenden durchgängig von der ''Transinformation'' $I(X; Y)$ und versuchen nun eine Interpretation dieser Größe:
+
Sucht man in einem Wörterbuch die Übersetzung für „mutual”, so findet man unter Anderem die Begriffe „gemeinsam”, „gegenseitig”, „beidseitig” und „wechselseitig”.&nbsp; Und ebenso sind in Fachbüchern für&nbsp; $I(X; Y)$&nbsp; auch die Bezeichnungen&nbsp; „gemeinsame Entropie”&nbsp; und&nbsp; „'gegenseitige Entropie”&nbsp; üblich.&nbsp; Wir sprechen aber im Folgenden durchgängig von der&nbsp; „Transinformation”&nbsp; $I(X; Y)$&nbsp; und versuchen nun eine Interpretation dieser Größe:
*Durch Aufspalten des $\log_2$–Arguments entsprechend
+
*Durch Aufspalten des&nbsp; $\log_2$–Arguments entsprechend
 
   
 
   
 
:$$I(X;Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm} \frac{1}
 
:$$I(X;Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm} \frac{1}
Zeile 149: Zeile 153:
 
{P_{Y}(Y) }{P_{XY}(X, Y)} \right ] $$
 
{P_{Y}(Y) }{P_{XY}(X, Y)} \right ] $$
  
:erhält man unter Verwendung von $P_{X|Y}(\cdot) = P_{XY}(\cdot)/P_Y(Y)$:
+
:erhält man unter Verwendung von&nbsp; $P_{X|Y}(\cdot) = P_{XY}(\cdot)/P_Y(Y)$:
 
   
 
   
 
:$$I(X;Y) = H(X) - H(X \hspace{-0.1cm}\mid \hspace{-0.1cm} Y) \hspace{0.05cm}.$$
 
:$$I(X;Y) = H(X) - H(X \hspace{-0.1cm}\mid \hspace{-0.1cm} Y) \hspace{0.05cm}.$$
  
*Das heißt: &nbsp; Die Unsicherheit hinsichtlich der Zufallsgröße $X$  &nbsp; ⇒  &nbsp;  Entropie $H(X)$ vermindert sich bei Kenntnis von $Y$ um den Betrag $H(X|Y)$. Der Rest ist die Transinformation $I(X; Y)$.
+
*Das heißt: &nbsp; Die Unsicherheit hinsichtlich der Zufallsgröße&nbsp; $X$  &nbsp; ⇒  &nbsp;  Entropie&nbsp; $H(X)$&nbsp; vermindert sich bei Kenntnis von&nbsp; $Y$&nbsp; um den Betrag&nbsp; $H(X|Y)$.&nbsp; Der Rest ist die Transinformation&nbsp; $I(X; Y)$.
 
*Bei anderer Aufspaltung kommt man zum Ergebnis
 
*Bei anderer Aufspaltung kommt man zum Ergebnis
 
:$$I(X;Y) = H(Y) - H(Y \hspace{-0.1cm}\mid \hspace{-0.1cm} X) \hspace{0.05cm}.$$
 
:$$I(X;Y) = H(Y) - H(Y \hspace{-0.1cm}\mid \hspace{-0.1cm} X) \hspace{0.05cm}.$$
*Ergo: &nbsp; Die Transinformation $I(X; Y)$ ist symmetrisch  &nbsp; ⇒ &nbsp;  $X$ sagt genau so viel über $Y$ aus wie $Y$ über $X$  &nbsp; ⇒ &nbsp; gegenseitige Information. Das Semikolon weist auf die Gleichberechtigung hin.
+
*Ergo: &nbsp; Die Transinformation&nbsp; $I(X; Y)$&nbsp; ist symmetrisch  &nbsp; ⇒ &nbsp;  $X$&nbsp; sagt genau so viel über&nbsp; $Y$&nbsp; aus wie&nbsp; $Y$&nbsp; über&nbsp; $X$  &nbsp; ⇒ &nbsp; gegenseitige Information. Das Semikolon weist auf die Gleichberechtigung hin.
  
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
 
$\text{Fazit:}$&nbsp;  
 
$\text{Fazit:}$&nbsp;  
Oft werden die hier genannten Gleichungen durch ein Schaubild verdeutlicht, so auch in den folgenden Beispielen. Daraus erkennt man, dass auch folgende Gleichungen zutreffen:
+
Oft werden die hier genannten Gleichungen durch ein Schaubild verdeutlicht, so auch in den folgenden Beispielen.&nbsp; Daraus erkennt man, dass auch folgende Gleichungen zutreffen:
 
   
 
   
:$$I(X;Y) = H(X) + H(Y) - H(XY) \hspace{0.05cm},$$
+
:$$I(X;\ Y) = H(X) + H(Y) - H(XY) \hspace{0.05cm},$$
:$$I(X;Y) = H(XY) -  
+
:$$I(X;\ Y) = H(XY) -  
 
H(X \hspace{-0.1cm}\mid \hspace{-0.1cm} Y) - H(Y \hspace{-0.1cm}\mid \hspace{-0.1cm} X)
 
H(X \hspace{-0.1cm}\mid \hspace{-0.1cm} Y) - H(Y \hspace{-0.1cm}\mid \hspace{-0.1cm} X)
 
\hspace{0.05cm}.$$}}
 
\hspace{0.05cm}.$$}}
Zeile 170: Zeile 174:
  
 
{{GraueBox|TEXT=
 
{{GraueBox|TEXT=
$\text{Beispiel 3:}$&nbsp; Wir kommen (letztmalig) auf das [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Einf.C3.BChrungsbeispiel_zur_statistischen_Abh.C3.A4ngigkeit_von_Zufallsgr.C3.B6.C3.9Fen|Würfel–Experiment]] mit dem roten $(R)$ und dem blauen $(B)$ Würfel zurück. Die Zufallsgröße $S$ gibt die Summe der beiden Würfel an: $S = R + B$.
+
$\text{Beispiel 3:}$&nbsp; Wir kommen (letztmalig) auf das&nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Einf.C3.BChrungsbeispiel_zur_statistischen_Abh.C3.A4ngigkeit_von_Zufallsgr.C3.B6.C3.9Fen|Würfel–Experiment]]&nbsp; mit dem roten&nbsp; $(R)$&nbsp; und dem blauen&nbsp; $(B)$&nbsp; Würfel zurück.&nbsp; Die Zufallsgröße&nbsp; $S$&nbsp; gibt die Summe der beiden Würfel an:&nbsp; $S = R + B$.&nbsp;
Wir betrachten hier die 2D–Zufallsgröße $RS$. In früheren Beispielen haben wir berechnet:
+
Wir betrachten hier die 2D–Zufallsgröße&nbsp; $RS$.&nbsp; In früheren Beispielen haben wir berechnet:
*die Entropien $H(R) = 2.585 \ \rm  bit$ und $H(S) = 3.274 \ \rm bit$ &nbsp; ⇒  &nbsp;[[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|Beispiel 6]] im letzten Kapitel,
+
*die Entropien&nbsp; $H(R) = 2.585 \ \rm  bit$&nbsp; und&nbsp; $H(S) = 3.274 \ \rm bit$ &nbsp; ⇒  &nbsp;[[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|Beispiel 6]]&nbsp; im letzten Kapitel,
*die Verbundentropie $H(RS) = 5.170 \ \rm bit$  &nbsp; ⇒  &nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|Beispiel 6]] im letzten Kapitel,
+
*die Verbundentropie&nbsp; $H(RS) = 5.170 \ \rm bit$  &nbsp; ⇒  &nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|Beispiel 6]]&nbsp; im letzten Kapitel,
*die bedingten Entropien $H(S \hspace{0.05cm} \vert \hspace{0.05cm} R) = 2.585 \ \rm bit$ und $H(R \hspace{0.05cm} \vert \hspace{0.05cm}  S) = 1.896 \ \rm bit$  &nbsp; ⇒  &nbsp;  [[Informationstheorie/Verschiedene_Entropien_zweidimensionaler_Zufallsgrößen#Bedingte_Wahrscheinlichkeit_und_bedingte_Entropie|Beispiel 2]] im vorherigen Abschnitt.
+
*die bedingten Entropien&nbsp; $H(S \hspace{0.05cm} \vert \hspace{0.05cm} R) = 2.585 \ \rm bit$&nbsp; und&nbsp; $H(R \hspace{0.05cm} \vert \hspace{0.05cm}  S) = 1.896 \ \rm bit$  &nbsp; ⇒  &nbsp;  [[Informationstheorie/Verschiedene_Entropien_zweidimensionaler_Zufallsgrößen#Bedingte_Wahrscheinlichkeit_und_bedingte_Entropie|Beispiel 2]]&nbsp; im vorherigen Abschnitt.
  
  
 
[[Datei:P_ID2765__Inf_T_3_2_S3_neu.png|frame|Schaubild aller Entropien des „Würfelexperiments” ]]
 
[[Datei:P_ID2765__Inf_T_3_2_S3_neu.png|frame|Schaubild aller Entropien des „Würfelexperiments” ]]
  
Diese Größen sind in der Grafik zusammengestellt, wobei die Zufallsgröße $R$ durch die Grundfarbe „Rot” und die Summe $S$ durch die Grundfarbe „grün” markiert sind. Bedingte Entropien sind schraffiert.
+
Diese Größen sind in der Grafik zusammengestellt, wobei die Zufallsgröße&nbsp; $R$&nbsp; durch die Grundfarbe „Rot” und die Summe&nbsp; $S$&nbsp; durch die Grundfarbe „Grün” markiert sind.&nbsp; Bedingte Entropien sind schraffiert.
 
Man erkennt aus dieser Darstellung:
 
Man erkennt aus dieser Darstellung:
*Die Entropie $H(R) = \log_2 (6) = 2.585\ \rm bit$ ist genau halb so groß wie die Verbundentropie $H(RS)$. Weil:
+
*Die Entropie&nbsp; $H(R) = \log_2 (6) = 2.585\ \rm bit$&nbsp; ist genau halb so groß wie die Verbundentropie&nbsp; $H(RS)$.&nbsp; Denn:&nbsp; Kennt man&nbsp; $R$, so liefert&nbsp; $S$&nbsp; genau die gleiche Information wie die Zufallsgröße&nbsp; $B$, nämlich&nbsp; $H(S \hspace{0.05cm} \vert \hspace{0.05cm}  R) = H(B) = \log_2 (6) = 2.585\ \rm bit$.&nbsp;
*Kennt man $R$, so liefert $S$ genau die gleiche Information wie die Zufallsgröße $B$, nämlich $H(S \hspace{0.05cm} \vert \hspace{0.05cm}  R) = H(B) = \log_2 (6) = 2.585\ \rm bit$. ''Hinweis'': &nbsp; $H(R)$ = $H(S \hspace{0.05cm} \vert \hspace{0.05cm}  R)$ gilt allerdings nur in diesem Beispiel, nicht allgemein.
+
*'''Hinweis''':&nbsp; $H(R)$ = $H(S \hspace{0.05cm} \vert \hspace{0.05cm}  R)$&nbsp; '''gilt allerdings nicht allgemein''', sondern nur in diesem Beispiel.
*Die Entropie $H(S) = 3.274 \ \rm bit$ ist im vorliegenden Beispiel erwartungsgemäß größer als $H(R)= 2.585\ \rm bit$.  
+
*Die Entropie&nbsp; $H(S) = 3.274 \ \rm bit$&nbsp; ist im vorliegenden Beispiel erwartungsgemäß größer als&nbsp; $H(R)= 2.585\ \rm bit$.&nbsp; Wegen&nbsp; $H(S) + H(R \hspace{0.05cm} \vert \hspace{0.05cm}  S) = H(R) + H(S \hspace{0.05cm} \vert \hspace{0.05cm}  R)$&nbsp; muss deshalb&nbsp; $H(R \hspace{0.05cm} \vert \hspace{0.05cm}  S)$&nbsp; gegenüber&nbsp; $H(S \hspace{0.05cm} \vert \hspace{0.05cm} R)$&nbsp; um den gleichen Betrag&nbsp; $I(R;\ S) = 0.689 \ \rm bit$&nbsp; kleiner sein als&nbsp; $H(R)$&nbsp; gegenüber&nbsp; $H(S)$.
*Wegen $H(S) + H(R \hspace{0.05cm} \vert \hspace{0.05cm}  S) = H(R) + H(S \hspace{0.05cm} \vert \hspace{0.05cm}  R)$ muss deshalb $H(R \hspace{0.05cm} \vert \hspace{0.05cm}  S)$ gegenüber $H(S \hspace{0.05cm} \vert \hspace{0.05cm} R)$ um den gleichen Betrag $I(R; S) = 0.689 \ \rm bit$ kleiner sein wie $H(R)$ gegenüber $H(S)$.
+
*Die Transinformation&nbsp; (englisch:&nbsp; '''Mutual Information''')&nbsp; zwischen den Zufallsgrößen&nbsp; $R$&nbsp; und&nbsp; $S$&nbsp; ergibt sich aber auch aus der Gleichung
*Die Transinformation (englisch: ''Mutual Information'') zwischen den Zufallsgrößen $R$ und $S$ ergibt sich aber auch aus der Gleichung
+
:$$I(R;\ S) = H(R) + H(S) - H(RS) =  2.585\ {\rm bit} + 3.274\ {\rm bit} - 5.170\ {\rm bit} = 0.689\ {\rm bit} \hspace{0.05cm}. $$}}
:$$I(R;S) = H(R) + H(S) - H(RS) =  2.585\,{\rm bit} + 3.274\,{\rm bit} - 5.170\,{\rm bit} = 0.689\,{\rm bit} \hspace{0.05cm}. $$}}
 
  
  
 
==Bedingte Transinformation  ==  
 
==Bedingte Transinformation  ==  
 
<br>  
 
<br>  
Wir betrachten nun drei Zufallsgrößen $X$, $Y$ und $Z$, die zueinander in Beziehung stehen (können).
+
Wir betrachten nun drei Zufallsgrößen&nbsp; $X$,&nbsp; $Y$&nbsp; und&nbsp; $Z$, die zueinander in Beziehung stehen (können).
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
$\text{Definition:}$&nbsp; Die '''bedingte Transinformation''' (englisch: ''Conditional Mutual Information'') zwischen den Zufallsgrößen $X$ und $Y$ bei gegebenem $Z = z$ lautet:
+
$\text{Definition:}$&nbsp; Die&nbsp; '''bedingte Transinformation'''&nbsp; (englisch:&nbsp; "Conditional Mutual Information")&nbsp; zwischen den Zufallsgrößen&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; '''bei gegebenem'''&nbsp; $Z = z$&nbsp; lautet:
 
   
 
   
 
:$$I(X;Y \hspace{0.05cm}\vert\hspace{0.05cm} Z = z) =  H(X\hspace{0.05cm}\vert\hspace{0.05cm} Z = z) - H(X\vert\hspace{0.05cm}Y ,\hspace{0.05cm} Z = z) \hspace{0.05cm}.$$
 
:$$I(X;Y \hspace{0.05cm}\vert\hspace{0.05cm} Z = z) =  H(X\hspace{0.05cm}\vert\hspace{0.05cm} Z = z) - H(X\vert\hspace{0.05cm}Y ,\hspace{0.05cm} Z = z) \hspace{0.05cm}.$$
  
Dagegen bezeichnet man als die '''bedingte Transinformation''' zwischen den Zufallsgrößen $X$ und $Y$ für die Zufallsgröße $Z$ allgemein nach Mittelung über alle $z \in Z$:
+
Man bezeichnet als die&nbsp; '''bedingte Transinformation'''&nbsp; zwischen den Zufallsgrößen&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; für die Zufallsgröße&nbsp; $Z$&nbsp; '''allgemein''' nach Mittelung über alle&nbsp; $z \in Z$:
 
   
 
   
 
:$$I(X;Y \hspace{0.05cm}\vert\hspace{0.05cm} Z ) =  H(X\hspace{0.05cm}\vert\hspace{0.05cm} Z ) - H(X\vert\hspace{0.05cm}Y  Z )= \hspace{-0.3cm}
 
:$$I(X;Y \hspace{0.05cm}\vert\hspace{0.05cm} Z ) =  H(X\hspace{0.05cm}\vert\hspace{0.05cm} Z ) - H(X\vert\hspace{0.05cm}Y  Z )= \hspace{-0.3cm}
Zeile 205: Zeile 208:
 
\hspace{0.05cm}.$$
 
\hspace{0.05cm}.$$
  
$P_Z(Z)$ ist die Wahrscheinlichkeitsfunktion (PMF) der Zufallsgröße $Z$ und $P_Z(z)$ die Wahrscheinlichkeit für die Realisierung $Z = z$.}}
+
$P_Z(Z)$&nbsp; ist die Wahrscheinlichkeitsfunktion&nbsp; $\rm (PMF)$&nbsp; der Zufallsgröße&nbsp; $Z$&nbsp; und&nbsp; $P_Z(z)$&nbsp; die Wahrscheinlichkeit für die Realisierung&nbsp; $Z = z$.}}
  
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
 
$\text{Bitte beachten Sie:}$&nbsp;  
 
$\text{Bitte beachten Sie:}$&nbsp;  
*Für die bedingte Entropie gilt bekanntlich die Größenrelation $H(X\hspace{0.05cm}\vert\hspace{0.05cm}Z) ≤ H(X)$.  
+
*Für die bedingte Entropie gilt bekanntlich die Größenrelation&nbsp; $H(X\hspace{0.05cm}\vert\hspace{0.05cm}Z) ≤ H(X)$.  
 
*Für die Transinformation gilt diese Größenrelation nicht unbedingt:  
 
*Für die Transinformation gilt diese Größenrelation nicht unbedingt:  
*$I(X; Y\hspace{0.05cm}\vert\hspace{0.05cm}Z)$ kann kleiner, gleich, '''aber auch größer sein''' als $I(X; Y)$.}}
+
*$I(X; Y\hspace{0.05cm}\vert\hspace{0.05cm}Z)$&nbsp; kann '''kleiner, gleich, aber auch größer sein'''&nbsp; als&nbsp; $I(X; Y)$.}}
  
  
[[Datei:P_ID2824__Inf_T_3_2_S4a.png|right|frame|2D–PMF $P_{XZ}$ ]]
+
[[Datei:P_ID2824__Inf_T_3_2_S4a.png|right|frame|2D–PMF&nbsp; $P_{XZ}$ ]]
 
{{GraueBox|TEXT=
 
{{GraueBox|TEXT=
 
$\text{Beispiel 4:}$&nbsp;  
 
$\text{Beispiel 4:}$&nbsp;  
Wir betrachten die binären Zufallsgrößen $X$, $Y$ und $Z$ mit folgenden Eigenschaften:
+
Wir betrachten die binären Zufallsgrößen&nbsp; $X$,&nbsp; $Y$&nbsp; und&nbsp; $Z$&nbsp; mit folgenden Eigenschaften:
* $X$ und $Y$ seien statistisch unabhängig.
+
* $X$&nbsp; und&nbsp; $Y$&nbsp; seien statistisch unabhängig.&nbsp; Für ihre Wahrscheinlichkeitsfunktionen gelte:   
* Für ihre Wahrscheinlichkeitsfunktionen gelte:   
+
:$$P_X(X) = \big [1/2, \ 1/2 \big],  \hspace{0.2cm} P_Y(Y) = \big[1– p, \ p \big] \  ⇒  \  H(X) = 1\ {\rm bit},  \hspace{0.2cm}  H(Y) = H_{\rm bin}(p).$$
:$$P_X(X) = [1/2, 1/2],  \hspace{0.2cm} P_Y(Y) = [1– p, p] \  ⇒  \  H(X) = 1\ {\rm bit},  \hspace{0.2cm}  H(Y) = H_{\rm bin}(p).$$
+
* $Z$&nbsp; ist die Modulo–2–Summe von&nbsp; $X$&nbsp; und&nbsp; $Y$: &nbsp;  $Z = X ⊕ Y$.
* $Z$ ist die Modulo–2–Summe von $X$ und $Y$: &nbsp;  $Z = X ⊕ Y$.
 
  
  
Aus der Verbund–Wahrscheinlichkeitsfunktion $P_{XZ}$ gemäß der oberen Grafik folgt:
+
Aus der Verbund–Wahrscheinlichkeitsfunktion&nbsp; $P_{XZ}$&nbsp; gemäß der oberen Grafik folgt:
*Durch Summation der Spalten–Wahrscheinlichkeiten ergibt sich $P_Z(Z) = [1/2; 1/2]$  ⇒ $H(Z) = 1\ {\rm bit}$.
+
*Durch Summation der Spalten–Wahrscheinlichkeiten ergibt sich&nbsp; $P_Z(Z) = \big [1/2, \  1/2 \big ]$ &nbsp; &nbsp; $H(Z) = 1\ {\rm bit}$.
* $X$ und $Z$ sind ebenfalls statistisch unabhängig, da für die 2D–PMF $P_{XZ}(X, Z) = P_X(X) · P_Z(Z)$ gilt.
+
* $X$&nbsp; und&nbsp; $Z$&nbsp; sind ebenfalls statistisch unabhängig, da für die 2D–PMF&nbsp; $P_{XZ}(X, Z) = P_X(X) · P_Z(Z)$&nbsp; gilt.&nbsp;
*Daraus folgt: $H(Z\hspace{0.05cm}\vert\hspace{0.05cm}  X) = H(Z)$, &nbsp; $H(X \hspace{0.05cm}\vert\hspace{0.05cm}  Z) = H(X)$, &nbsp; $I(X; Z) = 0$.
+
*Daraus folgt: &nbsp; $H(Z\hspace{0.05cm}\vert\hspace{0.05cm}  X) = H(Z)$ &nbsp; und &nbsp; $H(X \hspace{0.05cm}\vert\hspace{0.05cm}  Z) = H(X)$ &nbsp; sowie &nbsp; $I(X; Z) = 0$.
 
[[Datei:P_ID2826__Inf_T_3_2_S4b.png|right|frame|Bedingte  2D–PMF $P_{X\hspace{0.05cm}\vert\hspace{0.05cm}YZ}$]]
 
[[Datei:P_ID2826__Inf_T_3_2_S4b.png|right|frame|Bedingte  2D–PMF $P_{X\hspace{0.05cm}\vert\hspace{0.05cm}YZ}$]]
<br><br>Aus der bedingten Wahrscheinlichkeitsfunktion $P_{X\vert YZ}$ gemäß der unteren Grafik lassen sich berechnen:
+
<br><br>Aus der bedingten Wahrscheinlichkeitsfunktion&nbsp; $P_{X\vert YZ}$&nbsp; gemäß der unteren Grafik lassen sich berechnen:
* $H(X\hspace{0.05cm}\vert\hspace{0.05cm} YZ) = 0$, da alle $P_{X\hspace{0.05cm}\vert\hspace{0.05cm} YZ}$–Einträge entweder $0$ oder $1$ sind  &nbsp;  ⇒ &nbsp;  ''bedingte Entropie'',
+
* $H(X\hspace{0.05cm}\vert\hspace{0.05cm} YZ) = 0$,&nbsp; da alle&nbsp; $P_{X\hspace{0.05cm}\vert\hspace{0.05cm} YZ}$–Einträge entweder&nbsp; $0$&nbsp; oder&nbsp; $1$&nbsp; sind  &nbsp;  ⇒ &nbsp;  &bdquo;bedingte Entropie&rdquo;,
* $I(X; YZ)$ = $H(X)$ – $H(X\hspace{0.05cm}\vert\hspace{0.05cm} YZ)$ = $H(X)= 1 \ {\rm bit}$ &nbsp;  ⇒ &nbsp;  ''Transinformation'',
+
* $I(X; YZ) = H(X) - H(X\hspace{0.05cm}\vert\hspace{0.05cm} YZ) = H(X)= 1 \ {\rm bit}$ &nbsp;  ⇒ &nbsp;  &bdquo;Transinformation&rdquo;,
* $I(X; Y\vert Z)$ = $H(X\hspace{0.05cm}\vert\hspace{0.05cm} Z)$ = $H(X)=1 \ {\rm bit} $  &nbsp;  ⇒ &nbsp;  ''bedingte Transinformation''.
+
* $I(X; Y\vert Z) = H(X\hspace{0.05cm}\vert\hspace{0.05cm} Z) =H(X)=1 \ {\rm bit} $  &nbsp;  ⇒ &nbsp;  &bdquo;bedingte Transinformation&rdquo;.
  
  
Im vorliegenden Beispiel ist also die bedingte Transinformation $I(X; Y\hspace{0.05cm}\vert\hspace{0.05cm} Z) = 1$ größer als die herkömmliche Transinformation$I(X; Y) = 0$. }}
+
'''Im vorliegenden Beispiel ist'''&nbsp; also  
 +
*'''die bedingte Transinformation'''&nbsp; $I(X; Y\hspace{0.05cm}\vert\hspace{0.05cm} Z) = 1$  
 +
*'''größer als die herkömmliche Transinformation'''&nbsp; &nbsp;$I(X; Y) = 0$. }}
  
 
 
 
 
Zeile 242: Zeile 246:
 
==Kettenregel der Transinformation ==
 
==Kettenregel der Transinformation ==
 
<br>  
 
<br>  
Bisher haben wir die Transinformation nur zwischen zwei eindimensionalen Zufallsgrößen betrachtet. Nun erweitern wir die Definition auf insgesamt $n + 1$ Zufallsgrößen, die wir aus Darstellungsgründen mit $X_1$, \hspace{0.05cm}\text{...} \hspace{0.05cm}, $X_n$ sowie $Z$ bezeichnen. Dann gilt:
+
Bisher haben wir die Transinformation nur zwischen zwei eindimensionalen Zufallsgrößen betrachtet.&nbsp; Nun erweitern wir die Definition auf insgesamt&nbsp; $n + 1$&nbsp; Zufallsgrößen, die wir aus Darstellungsgründen mit&nbsp; $X_1$,&nbsp; ... ,&nbsp; $X_n$&nbsp; sowie&nbsp; $Z$&nbsp; bezeichnen.&nbsp; Dann gilt:
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
$\text{Kettenregel der Transinformation:}$&nbsp;  
+
$\text{Kettenregel der Transinformation:}$&nbsp;
Die Transinformation zwischen der $n$–dimensionalen Zufallsgröße $X_1 X_2  \hspace{0.05cm}\text{...} \hspace{0.05cm}  X_n$ und der Zufallsgröße $Z$ lässt sich wie folgt darstellen und berechnen:
+
 +
Die Transinformation zwischen der&nbsp; $n$–dimensionalen Zufallsgröße&nbsp; $X_1 X_2  \hspace{0.05cm}\text{...} \hspace{0.05cm}  X_n$&nbsp; und der Zufallsgröße&nbsp; $Z$&nbsp; lässt sich wie folgt darstellen und berechnen:
 
   
 
   
 
:$$I(X_1\hspace{0.05cm}X_2\hspace{0.05cm}\text{...} \hspace{0.1cm}X_n;Z) =  
 
:$$I(X_1\hspace{0.05cm}X_2\hspace{0.05cm}\text{...} \hspace{0.1cm}X_n;Z) =  
Zeile 257: Zeile 262:
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
 
$\text{Beweis:}$&nbsp;
 
$\text{Beweis:}$&nbsp;
Wir beschränken uns hier auf den Fall $n = 2$, also auf insgesamt drei Zufallsgrößen, und ersetzen $X_1$ durch $X$ und $X_2$ durch  $Y$. Dann erhalten wir:
+
Wir beschränken uns hier auf den Fall&nbsp; $n = 2$, also auf insgesamt drei Zufallsgrößen, und ersetzen&nbsp; $X_1$&nbsp; durch $X$ und&nbsp; $X_2$&nbsp; durch&nbsp; $Y$.&nbsp; Dann erhalten wir:
 
   
 
   
 
:$$\begin{align*}I(X\hspace{0.05cm}Y;Z)  & = H(XY) - H(XY\hspace{0.05cm} \vert \hspace{0.05cm}Z) = \\
 
:$$\begin{align*}I(X\hspace{0.05cm}Y;Z)  & = H(XY) - H(XY\hspace{0.05cm} \vert \hspace{0.05cm}Z) = \\
 
& =  \big [  H(X)+ H(Y\hspace{0.05cm} \vert \hspace{0.05cm} X)\big ]  - \big [  H(X\hspace{0.05cm} \vert \hspace{0.05cm} Z) + H(Y\hspace{0.05cm} \vert \hspace{0.05cm} XZ)\big ]  =\\  
 
& =  \big [  H(X)+ H(Y\hspace{0.05cm} \vert \hspace{0.05cm} X)\big ]  - \big [  H(X\hspace{0.05cm} \vert \hspace{0.05cm} Z) + H(Y\hspace{0.05cm} \vert \hspace{0.05cm} XZ)\big ]  =\\  
 
& =  \big [  H(X)- H(X\hspace{0.05cm} \vert \hspace{0.05cm} Z)\big ]  - \big [  H(Y\hspace{0.05cm} \vert \hspace{0.05cm} X) + H(Y\hspace{0.05cm} \vert \hspace{0.05cm}XZ)\big ]=\\
 
& =  \big [  H(X)- H(X\hspace{0.05cm} \vert \hspace{0.05cm} Z)\big ]  - \big [  H(Y\hspace{0.05cm} \vert \hspace{0.05cm} X) + H(Y\hspace{0.05cm} \vert \hspace{0.05cm}XZ)\big ]=\\
& =  I(X;Z) + I(Y;Z \hspace{0.05cm} \vert \hspace{0.05cm} X) \hspace{0.05cm}.\end{align*}$$
+
& =  I(X;Z) + I(Y;Z \hspace{0.05cm} \vert \hspace{0.05cm} X) \hspace{0.05cm}.\end{align*}$$}}
 +
 
  
Aus dieser Gleichung erkennt man, dass die die Größenrelation $I(X Y; Z) ≥ I(X; Z)$ immer gegeben ist. Gleichheit ergibt sich für die bedingte Transinformation $I(Y; Z \hspace{0.05cm} \vert  \hspace{0.05cm} X) = 0$, also dann, wenn die Zufallsgrößen $Y$ und $Z$ für ein gegebenes $X$ statistisch unabhängig sind.}}
+
Aus dieser Gleichung erkennt man, dass die die Größenrelation &nbsp;$I(X Y; Z) ≥ I(X; Z)$&nbsp; immer gegeben ist.  
 +
*Gleichheit ergibt sich für die bedingte Transinformation&nbsp; $I(Y; Z \hspace{0.05cm} \vert  \hspace{0.05cm} X) = 0$,&nbsp;
 +
* also dann, wenn die Zufallsgrößen&nbsp; $Y$&nbsp; und&nbsp; $Z$&nbsp; für ein gegebenes&nbsp; $X$&nbsp; statistisch unabhängig sind.
  
  
 
{{GraueBox|TEXT=
 
{{GraueBox|TEXT=
$\text{Beispiel 5:}$&nbsp;  Wir betrachten die [[Stochastische_Signaltheorie/Markovketten|Markovkette]] $X → Y → Z$. Für eine solche Konstellation gilt stets das ''Data Processing Theorem'' mit der folgenden Konsequenz, die sich aus der Kettenregel der Transinformation ableiten lässt:
+
$\text{Beispiel 5:}$&nbsp;  Wir betrachten die&nbsp; [[Stochastische_Signaltheorie/Markovketten|Markovkette]] &nbsp; $X → Y → Z$.&nbsp; Für eine solche Konstellation gilt stets das&nbsp; '''Data Processing Theorem'''&nbsp; mit der folgenden Konsequenz, die sich aus der Kettenregel der Transinformation ableiten lässt:
 
   
 
   
 
:$$I(X;Z) \hspace{-0.05cm}  \le  \hspace{-0.05cm}I(X;Y ) \hspace{0.05cm},$$
 
:$$I(X;Z) \hspace{-0.05cm}  \le  \hspace{-0.05cm}I(X;Y ) \hspace{0.05cm},$$
Zeile 274: Zeile 282:
  
 
Das Theorem besagt somit:
 
Das Theorem besagt somit:
*Man kann durch Manipulation (''Processing'' $Z$) der Daten $Y$ keine zusätzliche Information über den Eingang $X$ gewinnen.
+
*Man kann durch Manipulation&nbsp; $($"Processing"&nbsp; $Z)$&nbsp; der Daten&nbsp; $Y$&nbsp; keine zusätzliche Information über den Eingang&nbsp; $X$&nbsp; gewinnen.
*Die Datenverarbeitung $Y → Z$ (durch einen zweiten Prozessor) dient nur dem Zweck, die Information über $X$ besser sichtbar zu machen.
+
*Die Datenverarbeitung&nbsp; $Y → Z$&nbsp; $($durch einen zweiten Prozessor$)$ dient nur dem Zweck, die Information über&nbsp; $X$&nbsp; besser sichtbar zu machen.
  
  
Weitere Informationen zum ''Data Processing Theorem'' finden Sie in der [[Aufgaben:Aufgabe_3.15:_Data_Processing_Theorem|Aufgabe 3.15]].}}  
+
Weitere Informationen zum&nbsp; "Data Processing Theorem"&nbsp; finden Sie in der&nbsp; [[Aufgaben:Aufgabe_3.15:_Data_Processing_Theorem|Aufgabe 3.15]].}}  
  
  

Aktuelle Version vom 19. Juli 2021, 16:25 Uhr


Definition der Entropie unter Verwendung von supp(PXY)


Wir fassen die Ergebnisse des letzten Kapitels nochmals kurz zusammen, wobei wir von der zweidimensionalen Zufallsgröße  $XY$  mit der Wahrscheinlichkeitsfunktion  $P_{XY}(X,\ Y)$  ausgehen.  Gleichzeitig verwenden wir die Schreibweise

$${\rm supp} (P_{XY}) = \big \{ \hspace{0.05cm}(x,\ y) \in XY \hspace{0.05cm}, \hspace{0.3cm} {\rm wobei} \hspace{0.15cm} P_{XY}(X,\ Y) \ne 0 \hspace{0.05cm} \big \} \hspace{0.05cm}.$$

$\text{Zusammenfassende Darstellung des letzten Kapitels:}$  Mit dieser Teilmenge  $\text{supp}(P_{XY}) ⊂ P_{XY}$  gilt für

  • die  Verbundentropie  (englisch:  "Joint Entropy"):
$$H(XY) = {\rm E}\hspace{-0.1cm} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{XY}(X, Y)}\right ] =\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.05cm})} \hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{XY}(x, y)} \hspace{0.05cm}.$$
  • die  Entropien der 1D–Zufallsgrößen  $X$  und  $Y$:
$$H(X) = {\rm E}\hspace{-0.1cm} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{X}(X)}\right ] =\hspace{-0.2cm} \sum_{x \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{X})} \hspace{-0.2cm} P_{X}(x) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{X}(x)} \hspace{0.05cm},$$
$$H(Y) = {\rm E}\hspace{-0.1cm} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{Y}(Y)}\right ] =\hspace{-0.2cm} \sum_{y \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{Y})} \hspace{-0.2cm} P_{Y}(y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{Y}(y)} \hspace{0.05cm}.$$


$\text{Beispiel 1:}$  Wir beziehen uns nochmals auf die Beispiele auf der Seite  Verbundwahrscheinlichkeit und Verbundentropie  im letzten Kapitel.

Bei der 2D–Wahrscheinlichkeitsfunktion  $P_{RB}(R, B)$  im dortigen  $\text{Beispiel 5}$  mit den Parametern

  • $R$   ⇒   Augenzahl des roten Würfels und
  • $B$   ⇒   Augenzahl des blauen Würfels


sind die Mengen  $P_{RB}$  und  $\text{supp}(P_{RB})$  identisch.  Hier sind alle  $6^2 = 36$  Felder mit Werten ungleich Null belegt.

Bei der 2D–Wahrscheinlichkeitsfunktion  $P_{RS}(R, S)$  im  $\text{Beispiel 6}$  mit den Parametern

  • $R$   ⇒   Augenzahl des roten Würfels und
  • $S = R + B$   ⇒   Summe der beiden Würfel


gibt es  $6 · 11 = 66$ Felder, von denen allerdings viele leer sind, also für die Wahrscheinlichkeit  „0”  stehen.

  • Die Teilmenge  $\text{supp}(P_{RS})$  beinhaltet dagegen nur die  $36$  schraffierten Felder mit von Null verschiedenen Wahrscheinlichkeiten.
  • Die Entropie bleibt gleich, ganz egal, ob man die Mittelung über alle Elemente von  $P_{RS}$  oder nur über die Elemente von  $\text{supp}(P_{RS})$  erstreckt,  da für  $x → 0$  der Grenzwert  $x · \log_2 ({1}/{x}) = 0$  ist.


Bedingte Wahrscheinlichkeit und bedingte Entropie


Im Buch „Stochastische Signaltheorie” wurden für den Fall zweier Ereignisse  $X$  und  $Y$  die folgenden  bedingten Wahrscheinlichkeiten  angegeben   ⇒   Satz von Bayes:

$${\rm Pr} (X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y) = \frac{{\rm Pr} (X \cap Y)}{{\rm Pr} (Y)} \hspace{0.05cm}, \hspace{0.5cm} {\rm Pr} (Y \hspace{-0.05cm}\mid \hspace{-0.05cm} X) = \frac{{\rm Pr} (X \cap Y)}{{\rm Pr} (X)} \hspace{0.05cm}.$$

Angewendet auf Wahrscheinlichkeitsfunktionen erhält man somit:

$$P_{\hspace{0.03cm}X \mid \hspace{0.03cm} Y} (X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y) = \frac{P_{XY}(X, Y)}{P_{Y}(Y)} \hspace{0.05cm}, \hspace{0.5cm} P_{\hspace{0.03cm}Y \mid \hspace{0.03cm} X} (Y \hspace{-0.05cm}\mid \hspace{-0.05cm} X) = \frac{P_{XY}(X, Y)}{P_{X}(X)} \hspace{0.05cm}.$$

Analog zur  Verbundentropie  $H(XY)$  lassen sich hier folgende Entropiefunktionen ableiten:

$\text{Definitionen:}$ 

  • Die  bedingte Entropie  (englisch:  "Conditional Entropy")  der Zufallsgröße  $X$  unter der Bedingung  $Y$  lautet:
$$H(X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm}\frac{1}{P_{\hspace{0.03cm}X \mid \hspace{0.03cm} Y} (X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y)}\right ] = \hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})} \hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.03cm}X \mid \hspace{0.03cm} Y} (x \hspace{-0.05cm}\mid \hspace{-0.05cm} y)}=\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})} \hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_{Y}(y)}{P_{XY}(x, y)} \hspace{0.05cm}.$$
  • In gleicher Weise erhält man für die  zweite bedingte Entropie:
$$H(Y \hspace{-0.1cm}\mid \hspace{-0.05cm} X) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm}\frac{1}{P_{\hspace{0.03cm}Y\hspace{0.03cm} \mid \hspace{0.01cm} X} (Y \hspace{-0.08cm}\mid \hspace{-0.05cm}X)}\right ] =\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})} \hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.03cm}Y\hspace{-0.03cm} \mid \hspace{-0.01cm} X} (y \hspace{-0.05cm}\mid \hspace{-0.05cm} x)}=\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})} \hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_{X}(x)}{P_{XY}(x, y)} \hspace{0.05cm}.$$


Im Argument der Logarithmusfunktion steht stets eine bedingte Wahrscheinlichkeitsfunktion   ⇒   $P_{X\hspace{0.03cm}| \hspace{0.03cm}Y}(·)$  bzw.  $P_{Y\hspace{0.03cm}|\hspace{0.03cm}X}(·)$, während zur Erwartungswertbildung die Verbundwahrscheinlichkeit   ⇒   $P_{XY}(·)$ benötigt wird.

Für die bedingten Entropien gibt es folgende Begrenzungen:

  • Sowohl  $H(X|Y)$  als auch  $H(Y|X)$  sind stets größer oder gleich Null.  Aus  $H(X|Y) = 0$  folgt direkt auch  $H(Y|X) = 0$.  Beides ist nur für  disjunkte Mengen  $X$  und  $Y$  möglich.
  • Es gilt stets  $H(X|Y) ≤ H(X)$  sowie  $H(Y|X) ≤ H(Y)$.  Diese Aussagen sind einleuchtend, wenn man sich bewusst macht, dass man für „Entropie” synonym auch „Unsicherheit” verwenden kann.  Denn:   Die Unsicherheit bezüglich der Menge  $X$  kann nicht dadurch größer werden, dass man  $Y$  kennt. 
  • Außer bei statistischer Unabhängigkeit   ⇒   $H(X|Y) = H(X)$  gilt stets  $H(X|Y) < H(X)$.  Wegen  $H(X) ≤ H(XY)$  und  $H(Y) ≤ H(XY)$  gilt somit auch  $H(X|Y) ≤ H(XY)$  und  $H(Y|X) ≤ H(XY)$.  Eine bedingte Entropie kann also nie größer werden als die Verbundentropie.


$\text{Beispiel 2:}$  Wir betrachten die Verbundwahrscheinlichkeiten  $P_{RS}(·)$  unseres Würfelexperiments, die im  letzten Kapitel  als  $\text{Beispiel 6}$  ermittelt wurden.  In der Mitte der folgenden Grafik ist die damals berechnete Verbundwahrscheinlichkeit  $P_{RS}(·)$  nochmals angegeben.

Verbundwahrscheinlichkeiten  $P_{RS}$  und bedingte Wahrscheinlichkeiten  $P_{S \vert R}$  und  $P_{R \vert S}$

Außen sind die beiden bedingten Wahrscheinlichkeitsfunktionen dargestellt:

$\rm Links$  angegeben ist die bedingte Wahrscheinlichkeitsfunktion 

$$P_{S \vert R}(⋅) = P_{SR}(⋅)/P_R(⋅).$$
  • Wegen  $P_R(R) = \big [1/6, \ 1/6, \ 1/6, \ 1/6, \ 1/6, \ 1/6 \big ]$  steht hier in allen schraffierten Feldern   ⇒   $\text{supp}(P_{S\vert R}) = \text{supp}(P_{R\vert S})$  der gleiche Wahrscheinlichkeitswert  $1/6$. 
  • Daraus folgt für die bedingte Entropie:
$$H(S \hspace{-0.1cm}\mid \hspace{-0.13cm} R) = \hspace{-0.2cm} \sum_{(r, s) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{RS})} \hspace{-0.6cm} P_{RS}(r, s) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.03cm}S \hspace{0.03cm} \mid \hspace{0.03cm} R} (s \hspace{-0.05cm}\mid \hspace{-0.05cm} r)} $$
$$\Rightarrow \hspace{0.3cm}H(S \hspace{-0.1cm}\mid \hspace{-0.13cm} R) = 36 \cdot \frac{1}{36} \cdot {\rm log}_2 \hspace{0.1cm} (6) = 2.585\ {\rm bit} \hspace{0.05cm}.$$

$\rm Rechts$  ist  $P_{R\vert S}(⋅) = P_{RS}(⋅)/P_S(⋅)$  angegeben, wobei  $P_S(⋅)$  gemäß  $\text{Beispiel 6}$  einzusetzen ist. 

  • Es ergeben sich die gleichen Felder ungleich Null   ⇒   $\text{supp}(P_{R\vert S}) = \text{supp}(P_{S\vert R})$. 
  • Die Wahrscheinlichkeitswerte nehmen nun aber von der Mitte  $(1/6)$  zu den Rändern hin bis zur Wahrscheinlichkeit  $1$  in den Ecken kontinuierlich zu.  Daraus folgt:
$$H(R \hspace{-0.1cm}\mid \hspace{-0.13cm} S) = \frac{1}{36} \cdot {\rm log}_2 \hspace{0.1cm} (6) + \frac{2}{36} \cdot \sum_{i=1}^5 \big [ i \cdot {\rm log}_2 \hspace{0.1cm} (i) \big ]= 1.896\ {\rm bit} \hspace{0.05cm}.$$

Für die bedingten Wahrscheinlichkeiten der 2D–Zufallsgröße  $RB$  gemäß  $\text{Beispiel 5}$  erhält man dagegen wegen  $P_{RB}(⋅) = P_R(⋅) · P_B(⋅)$:

$$\begin{align*}H(B \hspace{-0.1cm}\mid \hspace{-0.13cm} R) \hspace{-0.15cm} & = \hspace{-0.15cm} H(B) = {\rm log}_2 \hspace{0.1cm} (6) = 2.585\ {\rm bit} \hspace{0.05cm},\\ H(R \hspace{-0.1cm}\mid \hspace{-0.13cm} B) \hspace{-0.15cm} & = \hspace{-0.15cm} H(R) = {\rm log}_2 \hspace{0.1cm} (6) = 2.585\ {\rm bit} \hspace{0.05cm}.\end{align*}$$


Transinformation zwischen zwei Zufallsgrößen


Wir betrachten die Zufallsgröße  $XY$  mit der 2D–Wahrscheinlichkeitsfunktion  $P_{XY}(X, Y)$.  Bekannt seien auch die 1D–Funktionen  $P_X(X)$  und  $P_Y(Y)$.

Nun stellen sich folgende Fragen:

  • Wie vermindert die Kenntnis der Zufallsgröße  $Y$  die Unsicherheit bezüglich  $X$?
  • Wie vermindert die Kenntnis der Zufallsgröße  $X$  die Unsicherheit bezüglich  $Y$?


Zur Beantwortung benötigen wir eine für die Informationstheorie substantielle Definition:

$\text{Definition:}$  Die  Transinformation  (englisch:  "Mutual Information")  zwischen den Zufallsgrößen  $X$  und  $Y$ – beide über dem gleichen Alphabet – ist wie folgt gegeben:

$$I(X;\ Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.08cm} \frac{P_{XY}(X, Y)} {P_{X}(X) \cdot P_{Y}(Y) }\right ] =\hspace{-0.25cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY})} \hspace{-0.8cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.08cm} \frac{P_{XY}(x, y)} {P_{X}(x) \cdot P_{Y}(y) } \hspace{0.01cm}.$$

Ein Vergleich mit dem  letzten Kapitel  zeigt, dass die Transinformation auch als  Kullback–Leibler–Distanz  zwischen der 2D–PMF  $P_{XY}$  und dem Produkt  $P_X · P_Y$  geschrieben werden kann:

$$I(X;Y) = D(P_{XY} \hspace{0.05cm}\vert \vert \hspace{0.05cm} P_X \cdot P_Y) \hspace{0.05cm}.$$

Es ist somit offensichtlich, dass stets  $I(X;\ Y) ≥ 0$  gilt.  Wegen der Symmetrie ist auch  $I(Y;\ X)$ = $I(X;\ Y)$.


Sucht man in einem Wörterbuch die Übersetzung für „mutual”, so findet man unter Anderem die Begriffe „gemeinsam”, „gegenseitig”, „beidseitig” und „wechselseitig”.  Und ebenso sind in Fachbüchern für  $I(X; Y)$  auch die Bezeichnungen  „gemeinsame Entropie”  und  „'gegenseitige Entropie”  üblich.  Wir sprechen aber im Folgenden durchgängig von der  „Transinformation”  $I(X; Y)$  und versuchen nun eine Interpretation dieser Größe:

  • Durch Aufspalten des  $\log_2$–Arguments entsprechend
$$I(X;Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm} \frac{1} {P_{X}(X) }\right ] - {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm} \frac {P_{Y}(Y) }{P_{XY}(X, Y)} \right ] $$
erhält man unter Verwendung von  $P_{X|Y}(\cdot) = P_{XY}(\cdot)/P_Y(Y)$:
$$I(X;Y) = H(X) - H(X \hspace{-0.1cm}\mid \hspace{-0.1cm} Y) \hspace{0.05cm}.$$
  • Das heißt:   Die Unsicherheit hinsichtlich der Zufallsgröße  $X$   ⇒   Entropie  $H(X)$  vermindert sich bei Kenntnis von  $Y$  um den Betrag  $H(X|Y)$.  Der Rest ist die Transinformation  $I(X; Y)$.
  • Bei anderer Aufspaltung kommt man zum Ergebnis
$$I(X;Y) = H(Y) - H(Y \hspace{-0.1cm}\mid \hspace{-0.1cm} X) \hspace{0.05cm}.$$
  • Ergo:   Die Transinformation  $I(X; Y)$  ist symmetrisch   ⇒   $X$  sagt genau so viel über  $Y$  aus wie  $Y$  über  $X$   ⇒   gegenseitige Information. Das Semikolon weist auf die Gleichberechtigung hin.


$\text{Fazit:}$  Oft werden die hier genannten Gleichungen durch ein Schaubild verdeutlicht, so auch in den folgenden Beispielen.  Daraus erkennt man, dass auch folgende Gleichungen zutreffen:

$$I(X;\ Y) = H(X) + H(Y) - H(XY) \hspace{0.05cm},$$
$$I(X;\ Y) = H(XY) - H(X \hspace{-0.1cm}\mid \hspace{-0.1cm} Y) - H(Y \hspace{-0.1cm}\mid \hspace{-0.1cm} X) \hspace{0.05cm}.$$


$\text{Beispiel 3:}$  Wir kommen (letztmalig) auf das  Würfel–Experiment  mit dem roten  $(R)$  und dem blauen  $(B)$  Würfel zurück.  Die Zufallsgröße  $S$  gibt die Summe der beiden Würfel an:  $S = R + B$.  Wir betrachten hier die 2D–Zufallsgröße  $RS$.  In früheren Beispielen haben wir berechnet:

  • die Entropien  $H(R) = 2.585 \ \rm bit$  und  $H(S) = 3.274 \ \rm bit$   ⇒  Beispiel 6  im letzten Kapitel,
  • die Verbundentropie  $H(RS) = 5.170 \ \rm bit$   ⇒   Beispiel 6  im letzten Kapitel,
  • die bedingten Entropien  $H(S \hspace{0.05cm} \vert \hspace{0.05cm} R) = 2.585 \ \rm bit$  und  $H(R \hspace{0.05cm} \vert \hspace{0.05cm} S) = 1.896 \ \rm bit$   ⇒   Beispiel 2  im vorherigen Abschnitt.


Schaubild aller Entropien des „Würfelexperiments”

Diese Größen sind in der Grafik zusammengestellt, wobei die Zufallsgröße  $R$  durch die Grundfarbe „Rot” und die Summe  $S$  durch die Grundfarbe „Grün” markiert sind.  Bedingte Entropien sind schraffiert. Man erkennt aus dieser Darstellung:

  • Die Entropie  $H(R) = \log_2 (6) = 2.585\ \rm bit$  ist genau halb so groß wie die Verbundentropie  $H(RS)$.  Denn:  Kennt man  $R$, so liefert  $S$  genau die gleiche Information wie die Zufallsgröße  $B$, nämlich  $H(S \hspace{0.05cm} \vert \hspace{0.05cm} R) = H(B) = \log_2 (6) = 2.585\ \rm bit$. 
  • Hinweis:  $H(R)$ = $H(S \hspace{0.05cm} \vert \hspace{0.05cm} R)$  gilt allerdings nicht allgemein, sondern nur in diesem Beispiel.
  • Die Entropie  $H(S) = 3.274 \ \rm bit$  ist im vorliegenden Beispiel erwartungsgemäß größer als  $H(R)= 2.585\ \rm bit$.  Wegen  $H(S) + H(R \hspace{0.05cm} \vert \hspace{0.05cm} S) = H(R) + H(S \hspace{0.05cm} \vert \hspace{0.05cm} R)$  muss deshalb  $H(R \hspace{0.05cm} \vert \hspace{0.05cm} S)$  gegenüber  $H(S \hspace{0.05cm} \vert \hspace{0.05cm} R)$  um den gleichen Betrag  $I(R;\ S) = 0.689 \ \rm bit$  kleiner sein als  $H(R)$  gegenüber  $H(S)$.
  • Die Transinformation  (englisch:  Mutual Information)  zwischen den Zufallsgrößen  $R$  und  $S$  ergibt sich aber auch aus der Gleichung
$$I(R;\ S) = H(R) + H(S) - H(RS) = 2.585\ {\rm bit} + 3.274\ {\rm bit} - 5.170\ {\rm bit} = 0.689\ {\rm bit} \hspace{0.05cm}. $$


Bedingte Transinformation


Wir betrachten nun drei Zufallsgrößen  $X$,  $Y$  und  $Z$, die zueinander in Beziehung stehen (können).

$\text{Definition:}$  Die  bedingte Transinformation  (englisch:  "Conditional Mutual Information")  zwischen den Zufallsgrößen  $X$  und  $Y$  bei gegebenem  $Z = z$  lautet:

$$I(X;Y \hspace{0.05cm}\vert\hspace{0.05cm} Z = z) = H(X\hspace{0.05cm}\vert\hspace{0.05cm} Z = z) - H(X\vert\hspace{0.05cm}Y ,\hspace{0.05cm} Z = z) \hspace{0.05cm}.$$

Man bezeichnet als die  bedingte Transinformation  zwischen den Zufallsgrößen  $X$  und  $Y$  für die Zufallsgröße  $Z$  allgemein nach Mittelung über alle  $z \in Z$:

$$I(X;Y \hspace{0.05cm}\vert\hspace{0.05cm} Z ) = H(X\hspace{0.05cm}\vert\hspace{0.05cm} Z ) - H(X\vert\hspace{0.05cm}Y Z )= \hspace{-0.3cm} \sum_{z \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{Z})} \hspace{-0.25cm} P_{Z}(z) \cdot I(X;Y \hspace{0.05cm}\vert\hspace{0.05cm} Z = z) \hspace{0.05cm}.$$

$P_Z(Z)$  ist die Wahrscheinlichkeitsfunktion  $\rm (PMF)$  der Zufallsgröße  $Z$  und  $P_Z(z)$  die Wahrscheinlichkeit für die Realisierung  $Z = z$.


$\text{Bitte beachten Sie:}$ 

  • Für die bedingte Entropie gilt bekanntlich die Größenrelation  $H(X\hspace{0.05cm}\vert\hspace{0.05cm}Z) ≤ H(X)$.
  • Für die Transinformation gilt diese Größenrelation nicht unbedingt:
  • $I(X; Y\hspace{0.05cm}\vert\hspace{0.05cm}Z)$  kann kleiner, gleich, aber auch größer sein  als  $I(X; Y)$.


2D–PMF  $P_{XZ}$

$\text{Beispiel 4:}$  Wir betrachten die binären Zufallsgrößen  $X$,  $Y$  und  $Z$  mit folgenden Eigenschaften:

  • $X$  und  $Y$  seien statistisch unabhängig.  Für ihre Wahrscheinlichkeitsfunktionen gelte:
$$P_X(X) = \big [1/2, \ 1/2 \big], \hspace{0.2cm} P_Y(Y) = \big[1– p, \ p \big] \ ⇒ \ H(X) = 1\ {\rm bit}, \hspace{0.2cm} H(Y) = H_{\rm bin}(p).$$
  • $Z$  ist die Modulo–2–Summe von  $X$  und  $Y$:   $Z = X ⊕ Y$.


Aus der Verbund–Wahrscheinlichkeitsfunktion  $P_{XZ}$  gemäß der oberen Grafik folgt:

  • Durch Summation der Spalten–Wahrscheinlichkeiten ergibt sich  $P_Z(Z) = \big [1/2, \ 1/2 \big ]$   ⇒   $H(Z) = 1\ {\rm bit}$.
  • $X$  und  $Z$  sind ebenfalls statistisch unabhängig, da für die 2D–PMF  $P_{XZ}(X, Z) = P_X(X) · P_Z(Z)$  gilt. 
  • Daraus folgt:   $H(Z\hspace{0.05cm}\vert\hspace{0.05cm} X) = H(Z)$   und   $H(X \hspace{0.05cm}\vert\hspace{0.05cm} Z) = H(X)$   sowie   $I(X; Z) = 0$.
Bedingte 2D–PMF $P_{X\hspace{0.05cm}\vert\hspace{0.05cm}YZ}$



Aus der bedingten Wahrscheinlichkeitsfunktion  $P_{X\vert YZ}$  gemäß der unteren Grafik lassen sich berechnen:

  • $H(X\hspace{0.05cm}\vert\hspace{0.05cm} YZ) = 0$,  da alle  $P_{X\hspace{0.05cm}\vert\hspace{0.05cm} YZ}$–Einträge entweder  $0$  oder  $1$  sind   ⇒   „bedingte Entropie”,
  • $I(X; YZ) = H(X) - H(X\hspace{0.05cm}\vert\hspace{0.05cm} YZ) = H(X)= 1 \ {\rm bit}$   ⇒   „Transinformation”,
  • $I(X; Y\vert Z) = H(X\hspace{0.05cm}\vert\hspace{0.05cm} Z) =H(X)=1 \ {\rm bit} $   ⇒   „bedingte Transinformation”.


Im vorliegenden Beispiel ist  also

  • die bedingte Transinformation  $I(X; Y\hspace{0.05cm}\vert\hspace{0.05cm} Z) = 1$
  • größer als die herkömmliche Transinformation   $I(X; Y) = 0$.


Kettenregel der Transinformation


Bisher haben wir die Transinformation nur zwischen zwei eindimensionalen Zufallsgrößen betrachtet.  Nun erweitern wir die Definition auf insgesamt  $n + 1$  Zufallsgrößen, die wir aus Darstellungsgründen mit  $X_1$,  ... ,  $X_n$  sowie  $Z$  bezeichnen.  Dann gilt:

$\text{Kettenregel der Transinformation:}$ 

Die Transinformation zwischen der  $n$–dimensionalen Zufallsgröße  $X_1 X_2 \hspace{0.05cm}\text{...} \hspace{0.05cm} X_n$  und der Zufallsgröße  $Z$  lässt sich wie folgt darstellen und berechnen:

$$I(X_1\hspace{0.05cm}X_2\hspace{0.05cm}\text{...} \hspace{0.1cm}X_n;Z) = I(X_1;Z) + I(X_2;Z \vert X_1) + \hspace{0.05cm}\text{...} \hspace{0.1cm}+ I(X_n;Z\vert X_1\hspace{0.05cm}X_2\hspace{0.05cm}\text{...} \hspace{0.1cm}X_{n-1}) = \sum_{i = 1}^{n} I(X_i;Z \vert X_1\hspace{0.05cm}X_2\hspace{0.05cm}\text{...} \hspace{0.1cm}X_{i-1}) \hspace{0.05cm}.$$


$\text{Beweis:}$  Wir beschränken uns hier auf den Fall  $n = 2$, also auf insgesamt drei Zufallsgrößen, und ersetzen  $X_1$  durch $X$ und  $X_2$  durch  $Y$.  Dann erhalten wir:

$$\begin{align*}I(X\hspace{0.05cm}Y;Z) & = H(XY) - H(XY\hspace{0.05cm} \vert \hspace{0.05cm}Z) = \\ & = \big [ H(X)+ H(Y\hspace{0.05cm} \vert \hspace{0.05cm} X)\big ] - \big [ H(X\hspace{0.05cm} \vert \hspace{0.05cm} Z) + H(Y\hspace{0.05cm} \vert \hspace{0.05cm} XZ)\big ] =\\ & = \big [ H(X)- H(X\hspace{0.05cm} \vert \hspace{0.05cm} Z)\big ] - \big [ H(Y\hspace{0.05cm} \vert \hspace{0.05cm} X) + H(Y\hspace{0.05cm} \vert \hspace{0.05cm}XZ)\big ]=\\ & = I(X;Z) + I(Y;Z \hspace{0.05cm} \vert \hspace{0.05cm} X) \hspace{0.05cm}.\end{align*}$$


Aus dieser Gleichung erkennt man, dass die die Größenrelation  $I(X Y; Z) ≥ I(X; Z)$  immer gegeben ist.

  • Gleichheit ergibt sich für die bedingte Transinformation  $I(Y; Z \hspace{0.05cm} \vert \hspace{0.05cm} X) = 0$, 
  • also dann, wenn die Zufallsgrößen  $Y$  und  $Z$  für ein gegebenes  $X$  statistisch unabhängig sind.


$\text{Beispiel 5:}$  Wir betrachten die  Markovkette   $X → Y → Z$.  Für eine solche Konstellation gilt stets das  Data Processing Theorem  mit der folgenden Konsequenz, die sich aus der Kettenregel der Transinformation ableiten lässt:

$$I(X;Z) \hspace{-0.05cm} \le \hspace{-0.05cm}I(X;Y ) \hspace{0.05cm},$$
$$I(X;Z) \hspace{-0.05cm} \le \hspace{-0.05cm} I(Y;Z ) \hspace{0.05cm}.$$

Das Theorem besagt somit:

  • Man kann durch Manipulation  $($"Processing"  $Z)$  der Daten  $Y$  keine zusätzliche Information über den Eingang  $X$  gewinnen.
  • Die Datenverarbeitung  $Y → Z$  $($durch einen zweiten Prozessor$)$ dient nur dem Zweck, die Information über  $X$  besser sichtbar zu machen.


Weitere Informationen zum  "Data Processing Theorem"  finden Sie in der  Aufgabe 3.15.


Aufgaben zum Kapitel


Aufgabe 3.7: Einige Entropieberechnungen

Aufgabe 3.8: Nochmals Transinformation

Aufgabe 3.8Z: Tupel aus ternären Zufallsgrößen

Aufgabe 3.9: Bedingte Transinformation