Aufgabe 3.5: Kullback-Leibler-Distanz & Binominalverteilung: Unterschied zwischen den Versionen
(5 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt) | |||
Zeile 4: | Zeile 4: | ||
[[Datei:P_ID2759__Inf_A_3_4_A.png|right|frame|Vorgegebene Wahrscheinlichkeiten]] | [[Datei:P_ID2759__Inf_A_3_4_A.png|right|frame|Vorgegebene Wahrscheinlichkeiten]] | ||
− | Wir gehen hier von der [[Stochastische_Signaltheorie/Binomialverteilung|Binomialverteilung]] aus, die durch die Parameter $I$ und $p$ gekennzeichnet ist ⇒ siehe Buch „Stochastische Signaltheorie”: | + | Wir gehen hier von der [[Stochastische_Signaltheorie/Binomialverteilung|Binomialverteilung]] aus, die durch die Parameter $I$ und $p$ gekennzeichnet ist <br>⇒ siehe Buch „Stochastische Signaltheorie”: |
* Wertebereich: | * Wertebereich: | ||
− | :$$X = \{\hspace{0.05cm}0\hspace{0.05cm}, \hspace{0. | + | :$$X = \{\hspace{0.05cm}0\hspace{0.05cm}, \hspace{0.15cm} 1\hspace{0.05cm},\hspace{0.15cm} |
− | 2\hspace{0.05cm},\hspace{0. | + | 2\hspace{0.05cm},\hspace{0.15cm} \text{...}\hspace{0.1cm} ,\hspace{0.15cm} {\mu}\hspace{0.05cm}, \hspace{0.05cm}\text{...}\hspace{0.1cm} , \hspace{0.15cm} I\hspace{0.05cm}\}\hspace{0.05cm},$$ |
* Wahrscheinlichkeiten: | * Wahrscheinlichkeiten: | ||
:$$P_X (X = \mu) = {I \choose \mu} \cdot p^{\mu} \cdot (1-p)^{I-\mu} \hspace{0.05cm},$$ | :$$P_X (X = \mu) = {I \choose \mu} \cdot p^{\mu} \cdot (1-p)^{I-\mu} \hspace{0.05cm},$$ | ||
Zeile 15: | Zeile 15: | ||
* Varianz: | * Varianz: | ||
:$$\sigma_X^2 = I \cdot p \cdot (1-p)\hspace{0.05cm}.$$ | :$$\sigma_X^2 = I \cdot p \cdot (1-p)\hspace{0.05cm}.$$ | ||
− | Im rot hinterlegten Teil der Tabelle sind die Wahrscheinlichkeiten $P_X(X = \mu$) der betrachteten Binomialverteilung angegeben. In der Teilaufgabe '''(1)''' sollen Sie die dazugehörigen Verteilungsparameter $I$ und $p$ bestimmen. | + | Im rot hinterlegten Teil der Tabelle sind die Wahrscheinlichkeiten $P_X(X = \mu$) der betrachteten Binomialverteilung angegeben. In der Teilaufgabe '''(1)''' sollen Sie die dazugehörigen Verteilungsparameter $I$ und $p$ bestimmen. |
− | Diese vorgegebene Binomialverteilung soll hier durch eine [[Stochastische_Signaltheorie/Poissonverteilung|Poissonverteilung]] $Y$ approximiert werden, gekennzeichnet durch die Rate $\lambda$: | + | Diese vorgegebene Binomialverteilung soll hier durch eine [[Stochastische_Signaltheorie/Poissonverteilung|Poissonverteilung]] $Y$ approximiert werden, gekennzeichnet durch die Rate $\lambda$: |
* Wertebereich: | * Wertebereich: | ||
− | :$$Y = \{\hspace{0.05cm}0\hspace{0.05cm}, \hspace{0. | + | :$$Y = \{\hspace{0.05cm}0\hspace{0.05cm}, \hspace{0.15cm} 1\hspace{0.05cm},\hspace{0.05cm} |
− | 2\hspace{0.05cm},\hspace{0. | + | 2\hspace{0.05cm},\hspace{0.15cm} \text{...}\hspace{0.1cm} ,\hspace{0.15cm} {\mu}\hspace{0.05cm}, \hspace{0.05cm}\text{...}\hspace{0.1cm}\}\hspace{0.05cm},$$ |
* Wahrscheinlichkeiten: | * Wahrscheinlichkeiten: | ||
− | :$$P_Y (Y = \mu) = \frac{\lambda^{\mu}}{\mu !} \cdot {\rm e}^{\lambda} \hspace{0.05cm},$$ | + | :$$P_Y (Y = \mu) = \frac{\lambda^{\mu}}{\mu !} \cdot {\rm e}^{-\lambda} \hspace{0.05cm},$$ |
* Erwartungswerte: | * Erwartungswerte: | ||
:$$m_Y = \sigma_Y^2 = \lambda\hspace{0.05cm}.$$ | :$$m_Y = \sigma_Y^2 = \lambda\hspace{0.05cm}.$$ | ||
− | Um abschätzen zu können, ob die Wahrscheinlichkeitsfunktion $P_X(X)$ ausreichend gut durch $P_Y(Y)$ approximiert wird, kann man auf die so genannten < | + | Um abschätzen zu können, ob die Wahrscheinlichkeitsfunktion $P_X(X)$ ausreichend gut durch $P_Y(Y)$ approximiert wird, kann man auf die so genannten <b>Kullback–Leibler–Distanzen</b> $\rm (KLD)$ zurückgreifen, in der Literatur teilweise auch „relative Entropien” genannt. |
+ | |||
+ | Angepasst an das vorliegende Beispiel lauten diese: | ||
:$$D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) \hspace{0.15cm} = \hspace{0.15cm} {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{P_X(X)}{P_Y(X)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 0}^{I} P_X(\mu) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_X(\mu)}{P_Y(\mu)} \hspace{0.05cm},$$ | :$$D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) \hspace{0.15cm} = \hspace{0.15cm} {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{P_X(X)}{P_Y(X)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 0}^{I} P_X(\mu) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_X(\mu)}{P_Y(\mu)} \hspace{0.05cm},$$ | ||
+ | [[Datei:P_ID2760__Inf_A_3_4_B.png|right|frame|Beiliegende Ergebnistabelle]] | ||
:$$D(P_Y \hspace{0.05cm}|| \hspace{0.05cm} P_X) \hspace{0.15cm} = \hspace{0.15cm} {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{P_Y(X)}{P_X(X)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 0}^{\infty} P_Y(\mu) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_Y(\mu)}{P_X(\mu)} \hspace{0.05cm}.$$ | :$$D(P_Y \hspace{0.05cm}|| \hspace{0.05cm} P_X) \hspace{0.15cm} = \hspace{0.15cm} {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{P_Y(X)}{P_X(X)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 0}^{\infty} P_Y(\mu) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_Y(\mu)}{P_X(\mu)} \hspace{0.05cm}.$$ | ||
− | Bei Verwendung | + | Bei Verwendung von $\log_2$ ist dem Zahlenwert die Pseudo–Einheit „bit” hinzuzufügen. |
+ | |||
+ | In nebenstehender Tabelle ist die Kullback–Leibler–Distanz $D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y)$ (in „bit”) zwischen der Binomial–PMF $P_X(\cdot)$ und einigen Poisson–Näherungen $P_Y(\cdot)$ $($mit fünf verschiedenen Raten $\lambda)$ eingetragen. | ||
+ | *Die jeweilige Entropie $H(Y)$, die ebenfalls von der Rate $\lambda$ abhängt, ist in der ersten Zeile angegeben. | ||
+ | |||
+ | *Die Spalten für $\lambda = 1$ sind in den Teilaufgaben '''(3)''' und '''(4)''' zu ergänzen. | ||
+ | *In der Teilaufgabe '''(6)''' sollen diese Ergebnisse interpretiert werden. | ||
+ | |||
+ | |||
− | |||
− | |||
− | + | Hinweise: | |
− | + | *Die Aufgabe gehört zum Kapitel [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen|Einige Vorbemerkungen zu zweidimensionalen Zufallsgrößen]]. | |
− | |||
− | *Die Aufgabe gehört zum Kapitel [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen|Einige Vorbemerkungen zu | ||
*Insbesondere wird Bezug genommen auf die Seite [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Relative_Entropie_.E2.80.93_Kullback.E2.80.93Leibler.E2.80.93Distanz|Relative Entropie – Kullback-Leibler-Distanz]]. | *Insbesondere wird Bezug genommen auf die Seite [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Relative_Entropie_.E2.80.93_Kullback.E2.80.93Leibler.E2.80.93Distanz|Relative Entropie – Kullback-Leibler-Distanz]]. | ||
− | + | *Um die numerischen Berechnungen in Grenzen zu halten, werden folgende Hilfsgrößen vorgegeben; hierbei bezeichnet $\rm \lg$ den Logarithmus zur Basis $10$: | |
− | *Um die numerischen Berechnungen in Grenzen zu halten, werden folgende Hilfsgrößen vorgegeben; hierbei bezeichnet $\rm \lg$ den Logarithmus zur Basis $10$: | + | :$$A\hspace{0.05cm}' = |
− | :$$A' = | ||
0.4096 \cdot {\rm lg} \hspace{0.1cm} \frac{0.4096}{0.3679} + | 0.4096 \cdot {\rm lg} \hspace{0.1cm} \frac{0.4096}{0.3679} + | ||
0.2048 \cdot {\rm lg} \hspace{0.1cm} \frac{0.2048}{0.1839} + | 0.2048 \cdot {\rm lg} \hspace{0.1cm} \frac{0.2048}{0.1839} + | ||
Zeile 49: | Zeile 55: | ||
0.0064 \cdot {\rm lg} \hspace{0.1cm} \frac{0.0064}{0.0153} + | 0.0064 \cdot {\rm lg} \hspace{0.1cm} \frac{0.0064}{0.0153} + | ||
0.0003 \cdot {\rm lg} \hspace{0.1cm} \frac{0.0003}{0.0031} \hspace{0.05cm},$$ | 0.0003 \cdot {\rm lg} \hspace{0.1cm} \frac{0.0003}{0.0031} \hspace{0.05cm},$$ | ||
− | :$$B' = | + | :$$B\hspace{0.05cm}' = |
0.1839 \cdot {\rm lg} \hspace{0.1cm} (0.1839) + | 0.1839 \cdot {\rm lg} \hspace{0.1cm} (0.1839) + | ||
0.0613 \cdot {\rm lg} \hspace{0.1cm} (0.0613) + | 0.0613 \cdot {\rm lg} \hspace{0.1cm} (0.0613) + | ||
Zeile 56: | Zeile 62: | ||
0.0005 \cdot {\rm lg} \hspace{0.1cm} (0.0005) + | 0.0005 \cdot {\rm lg} \hspace{0.1cm} (0.0005) + | ||
0.0001 \cdot {\rm lg} \hspace{0.1cm} (0.0001)$$ | 0.0001 \cdot {\rm lg} \hspace{0.1cm} (0.0001)$$ | ||
− | :$$\Rightarrow \hspace{0.3cm} A' \hspace{0.15cm} \underline {= 0.021944} \hspace{0.05cm},\hspace{0.5cm} | + | :$$\Rightarrow \hspace{0.3cm} A\hspace{0.05cm}' \hspace{0.15cm} \underline {= 0.021944} \hspace{0.05cm},\hspace{0.5cm} |
− | B' \hspace{0.15cm} \underline {= -0.24717} \hspace{0.05cm}.$$ | + | B\hspace{0.05cm}' \hspace{0.15cm} \underline {= -0.24717} \hspace{0.05cm}.$$ |
Zeile 63: | Zeile 69: | ||
<quiz display=simple> | <quiz display=simple> | ||
− | {Wie lauten die Kenngrößen der vorliegenden Binomialverteilung? | + | {Wie lauten die Kenngrößen der vorliegenden Binomialverteilung? Hinweis: Geben Sie (maximal) eine Nachkommastelle ein. |
|type="{}"} | |type="{}"} | ||
$I \hspace{0.47cm} = \ $ { 5 3% } | $I \hspace{0.47cm} = \ $ { 5 3% } | ||
Zeile 74: | Zeile 80: | ||
|type="[]"} | |type="[]"} | ||
- Keine der beiden Distanzen ist anwendbar. | - Keine der beiden Distanzen ist anwendbar. | ||
− | + $D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y)$ ist besser geeignet. | + | + $D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y)$ ist besser geeignet. |
− | - $D(P_Y \hspace{0.05cm}|| \hspace{0.05cm} P_X)$ ist besser geeignet. | + | - $D(P_Y \hspace{0.05cm}|| \hspace{0.05cm} P_X)$ ist besser geeignet. |
- Beide Kullback–Leibler–Distanzen sind anwendbar. | - Beide Kullback–Leibler–Distanzen sind anwendbar. | ||
− | {Berechnen Sie die geeignete Kullback–Leibler–Distanz (hier mit $D$ abgekürzt) für $\lambda = 1$. | + | {Berechnen Sie die geeignete Kullback–Leibler–Distanz $($hier mit $D$ abgekürzt$)$ für $\lambda = 1$. Berücksichtigen Sie die Hilfsgröße $A\hspace{0.05cm}'$. |
|type="{}"} | |type="{}"} | ||
$D \ = \ $ { 0.0182 3% } $\ \rm bit$ | $D \ = \ $ { 0.0182 3% } $\ \rm bit$ | ||
− | {Berechnen Sie die Entropie $H(Y)$ der Poisson–Näherung mit der Rate $\lambda = 1$. | + | {Berechnen Sie die Entropie $H(Y)$ der Poisson–Näherung mit der Rate $\lambda = 1$. Berücksichtigen Sie die Hilfsgröße $B\hspace{0.05cm}'$. |
− | |||
|type="{}"} | |type="{}"} | ||
$H(Y) \ = \ $ { 1.864 3% } $\ \rm bit$ | $H(Y) \ = \ $ { 1.864 3% } $\ \rm bit$ | ||
Zeile 92: | Zeile 97: | ||
{Welche der folgenden Aussagen sind zutreffend? | {Welche der folgenden Aussagen sind zutreffend? | ||
|type="[]"} | |type="[]"} | ||
− | + Bei der $H(Y)$ –Berechnung haben alle Terme gleiches Vorzeichen. | + | + Bei der $H(Y)$–Berechnung haben alle Terme gleiches Vorzeichen. |
− | - Bei der $D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y)$–Berechnung haben alle Terme gleiches Vorzeichen. | + | - Bei der $D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y)$–Berechnung haben alle Terme gleiches Vorzeichen. |
{Wie interpretieren Sie die vervollständigte Ergebnistabelle? | {Wie interpretieren Sie die vervollständigte Ergebnistabelle? | ||
|type="[]"} | |type="[]"} | ||
− | + Nach der Kullback–Leibler–Distanz sollte man $\lambda = 1$ wählen. | + | + Nach der Kullback–Leibler–Distanz sollte man $\lambda = 1$ wählen. |
− | - | + | - $\lambda = 1$ garantiert die beste Approximation $H(Y) ≈ H(X)$. |
Zeile 107: | Zeile 112: | ||
===Musterlösung=== | ===Musterlösung=== | ||
{{ML-Kopf}} | {{ML-Kopf}} | ||
− | '''(1)''' Bei der Binomialverteilung sind alle Wahrscheinlichkeiten Pr( | + | '''(1)''' Bei der Binomialverteilung sind alle Wahrscheinlichkeiten ${\rm Pr}(X > I) = 0$ ⇒ $\underline{I = 5}$. Damit ergibt sich für die Wahrscheinlichkeit, dass $X =I = 5$ ist: |
:$${\rm Pr} (X = 5) = {5 \choose 5} \cdot p^{5} = p^{5} \approx 0.0003 \hspace{0.05cm}.$$ | :$${\rm Pr} (X = 5) = {5 \choose 5} \cdot p^{5} = p^{5} \approx 0.0003 \hspace{0.05cm}.$$ | ||
Somit erhält man für | Somit erhält man für | ||
Zeile 114: | Zeile 119: | ||
* den linearen Mittelwert (Erwartungswert): $m_X = I \cdot p \hspace{0.15cm} \underline {= 1}\hspace{0.05cm},$ | * den linearen Mittelwert (Erwartungswert): $m_X = I \cdot p \hspace{0.15cm} \underline {= 1}\hspace{0.05cm},$ | ||
* die Varianz: $\sigma_X^2 = I \cdot p \cdot (1-p) \hspace{0.15cm} \underline {= 0.8}\hspace{0.05cm}.$ | * die Varianz: $\sigma_X^2 = I \cdot p \cdot (1-p) \hspace{0.15cm} \underline {= 0.8}\hspace{0.05cm}.$ | ||
+ | |||
+ | |||
'''(2)''' Richtig ist der <u>Lösungsvorschlag 2</u>: | '''(2)''' Richtig ist der <u>Lösungsvorschlag 2</u>: | ||
− | *Bei Verwendung von | + | *Bei Verwendung von $D(P_Y \hspace{0.05cm}|| \hspace{0.05cm} P_X)$ würde sich unabhängig von $λ$ stets ein unendlicher Wert ergeben, da für $\mu ≥ 6$ gilt: |
:$$P_X (X = \mu) = 0 \hspace{0.05cm},\hspace{0.3cm}P_Y (Y = \mu) \ne 0 \hspace{0.05cm}.$$ | :$$P_X (X = \mu) = 0 \hspace{0.05cm},\hspace{0.3cm}P_Y (Y = \mu) \ne 0 \hspace{0.05cm}.$$ | ||
− | *Auch wenn die Wahrscheinlichkeiten | + | *Auch wenn die Wahrscheinlichkeiten $P_Y (Y = \mu)$ für große $μ$ sehr klein werden, sind sie doch „unendlich viel größer” als $P_X (X = \mu)$. |
+ | |||
+ | |||
'''(3)''' Wir verwenden die erste Kullback–Leibler–Distanz: | '''(3)''' Wir verwenden die erste Kullback–Leibler–Distanz: | ||
:$$D = D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) =\hspace{0.2cm} \sum_{\mu = 0}^{5} P_X(\mu) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_X(\mu)}{P_Y(\mu)} \hspace{0.05cm}.$$ | :$$D = D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) =\hspace{0.2cm} \sum_{\mu = 0}^{5} P_X(\mu) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_X(\mu)}{P_Y(\mu)} \hspace{0.05cm}.$$ | ||
− | Bei Verwendung des Zehnerlogarithmus | + | *Bei Verwendung des Zehnerlogarithmus $(\lg)$ erhalten wir für die Poisson–Näherung mit $\lambda = 1$: |
:$$D \hspace{0.05cm}' = 0.3277 \cdot {\rm lg} \hspace{0.1cm} \frac{0.3277}{0.3679} + A \hspace{0.05cm}' = | :$$D \hspace{0.05cm}' = 0.3277 \cdot {\rm lg} \hspace{0.1cm} \frac{0.3277}{0.3679} + A \hspace{0.05cm}' = | ||
-0.016468 + 0.021944 = 0.005476 \hspace{0.05cm}.$$ | -0.016468 + 0.021944 = 0.005476 \hspace{0.05cm}.$$ | ||
− | Nach Umrechnung auf den Zweierlogarithmus | + | *Nach Umrechnung auf den Zweierlogarithmus $(\log_2)$ erhält man schließlich: |
− | :$$D = D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) = \frac{0.005476}{{\rm lg} \hspace{0.1cm}(2)} \hspace{0.15cm} \underline {\approx 0.0182\ | + | :$$D = D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) = \frac{0.005476}{{\rm lg} \hspace{0.1cm}(2)} \hspace{0.15cm} \underline {\approx 0.0182\ {\rm (bit)}}\hspace{0.05cm}.$$ |
+ | |||
− | '''(4)''' Unter Verwendung des Zehnerlogarithmus lautet die Entropie der Poisson–Näherung ( | + | '''(4)''' Unter Verwendung des Zehnerlogarithmus lautet die Entropie der Poisson–Näherung $(\lambda = 1)$: |
:$$H\hspace{0.05cm}'(Y) = -{\rm E} \left [{\rm lg} \hspace{0.1cm} {P_Y(Y)} \right ] | :$$H\hspace{0.05cm}'(Y) = -{\rm E} \left [{\rm lg} \hspace{0.1cm} {P_Y(Y)} \right ] | ||
= -2 \cdot 0.3679 \cdot {\rm lg} \hspace{0.1cm} (0.3679) - B\hspace{0.05cm}' = 0.31954 + 0.24717 = 0.56126.$$ | = -2 \cdot 0.3679 \cdot {\rm lg} \hspace{0.1cm} (0.3679) - B\hspace{0.05cm}' = 0.31954 + 0.24717 = 0.56126.$$ | ||
− | Die Umrechnung in „bit” liefert das gesuchte Ergebnis: | + | *Die Umrechnung in „bit” liefert das gesuchte Ergebnis: |
:$$H(Y) = \frac{0.56126}{{\rm lg} \hspace{0.1cm}(2)} | :$$H(Y) = \frac{0.56126}{{\rm lg} \hspace{0.1cm}(2)} | ||
− | \hspace{0.15cm} \underline {= 1.864\ | + | \hspace{0.15cm} \underline {= 1.864\ {\rm (bit)}} \hspace{0.05cm}.$$ |
+ | |||
+ | |||
+ | |||
+ | '''(5)''' Richtig ist die <u>Aussage 1</u>. Bei der numerischen Berechnung der Kullback–Leibler–Distanz ist | ||
+ | * der Beitrag des $μ$–ten Terms positiv, falls $P_Y(\mu) > P_X(\mu)$, | ||
+ | * der Beitrag des $μ$–ten Terms negativ, falls $P_Y(\mu) < P_X(\mu)$. | ||
+ | |||
+ | |||
+ | [[Datei:P_ID2761__Inf_A_3_4_C.png|right|frame|Kullback–Leibler–Distanz und Entropie]] | ||
− | |||
− | |||
− | |||
− | |||
'''(6)''' Zutreffend ist der <u>Lösungsvorschlag 1</u>: | '''(6)''' Zutreffend ist der <u>Lösungsvorschlag 1</u>: | ||
− | *Auch aus der Grafik ist ersichtlich, dass | + | *Auch aus der Grafik ist ersichtlich, dass $D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) =0.0182$ bit von keinem anderen $λ$–Wert als $λ = 1$ unterschritten wird (grüne Kreuze). |
− | *Weiter erkennt man aus dieser Darstellung, dass man mit | + | *Weiter erkennt man aus dieser Darstellung, dass man mit $λ = 0.9$ eine bessere Entropie–Approximation als mit $λ = 1$ erreicht (blaue Kreise): |
− | :$$H(Y) = 1.795\ | + | :$$H(Y) = 1.795\ {\rm bit} \hspace{0.15cm}\approx \hspace{0.15cm} H(X) = 1.793\ {\rm bit}\hspace{0.05cm}.$$ |
:Der zweite Lösungsvorschlag ist also falsch. | :Der zweite Lösungsvorschlag ist also falsch. | ||
− | + | * Mit $λ = 1$ stimmen die <u>linearen Mittelwerte</u> der beiden Zufallsgrößen überein: | |
− | * Mit | + | :$$m_X = m_Y= 1.$$ |
− | * Mit | + | * Mit $λ = 0.9$ stimmen die <u>quadratischen Mittelwerte</u> überein: |
+ | :$$m_X + \sigma_X^2 = m_Y + \sigma_Y^2= 1.8.$$ | ||
+ | Ob diese Aussage relevant ist, lassen wir dahingestellt. | ||
− | + | Denn: Aufgrund der stetigen Zunahme von $H(Y)$ mit zunehmendem $λ$ ist klar, dass für irgendeinen $λ$–Wert tatsächlich $H(Y) = H(X)$ gelten muss. | |
{{ML-Fuß}} | {{ML-Fuß}} | ||
Aktuelle Version vom 31. August 2021, 13:34 Uhr
Wir gehen hier von der Binomialverteilung aus, die durch die Parameter $I$ und $p$ gekennzeichnet ist
⇒ siehe Buch „Stochastische Signaltheorie”:
- Wertebereich:
- $$X = \{\hspace{0.05cm}0\hspace{0.05cm}, \hspace{0.15cm} 1\hspace{0.05cm},\hspace{0.15cm} 2\hspace{0.05cm},\hspace{0.15cm} \text{...}\hspace{0.1cm} ,\hspace{0.15cm} {\mu}\hspace{0.05cm}, \hspace{0.05cm}\text{...}\hspace{0.1cm} , \hspace{0.15cm} I\hspace{0.05cm}\}\hspace{0.05cm},$$
- Wahrscheinlichkeiten:
- $$P_X (X = \mu) = {I \choose \mu} \cdot p^{\mu} \cdot (1-p)^{I-\mu} \hspace{0.05cm},$$
- linearer Mittelwert:
- $$m_X = I \cdot p \hspace{0.05cm},$$
- Varianz:
- $$\sigma_X^2 = I \cdot p \cdot (1-p)\hspace{0.05cm}.$$
Im rot hinterlegten Teil der Tabelle sind die Wahrscheinlichkeiten $P_X(X = \mu$) der betrachteten Binomialverteilung angegeben. In der Teilaufgabe (1) sollen Sie die dazugehörigen Verteilungsparameter $I$ und $p$ bestimmen.
Diese vorgegebene Binomialverteilung soll hier durch eine Poissonverteilung $Y$ approximiert werden, gekennzeichnet durch die Rate $\lambda$:
- Wertebereich:
- $$Y = \{\hspace{0.05cm}0\hspace{0.05cm}, \hspace{0.15cm} 1\hspace{0.05cm},\hspace{0.05cm} 2\hspace{0.05cm},\hspace{0.15cm} \text{...}\hspace{0.1cm} ,\hspace{0.15cm} {\mu}\hspace{0.05cm}, \hspace{0.05cm}\text{...}\hspace{0.1cm}\}\hspace{0.05cm},$$
- Wahrscheinlichkeiten:
- $$P_Y (Y = \mu) = \frac{\lambda^{\mu}}{\mu !} \cdot {\rm e}^{-\lambda} \hspace{0.05cm},$$
- Erwartungswerte:
- $$m_Y = \sigma_Y^2 = \lambda\hspace{0.05cm}.$$
Um abschätzen zu können, ob die Wahrscheinlichkeitsfunktion $P_X(X)$ ausreichend gut durch $P_Y(Y)$ approximiert wird, kann man auf die so genannten Kullback–Leibler–Distanzen $\rm (KLD)$ zurückgreifen, in der Literatur teilweise auch „relative Entropien” genannt.
Angepasst an das vorliegende Beispiel lauten diese:
- $$D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) \hspace{0.15cm} = \hspace{0.15cm} {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{P_X(X)}{P_Y(X)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 0}^{I} P_X(\mu) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_X(\mu)}{P_Y(\mu)} \hspace{0.05cm},$$
- $$D(P_Y \hspace{0.05cm}|| \hspace{0.05cm} P_X) \hspace{0.15cm} = \hspace{0.15cm} {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{P_Y(X)}{P_X(X)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 0}^{\infty} P_Y(\mu) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_Y(\mu)}{P_X(\mu)} \hspace{0.05cm}.$$
Bei Verwendung von $\log_2$ ist dem Zahlenwert die Pseudo–Einheit „bit” hinzuzufügen.
In nebenstehender Tabelle ist die Kullback–Leibler–Distanz $D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y)$ (in „bit”) zwischen der Binomial–PMF $P_X(\cdot)$ und einigen Poisson–Näherungen $P_Y(\cdot)$ $($mit fünf verschiedenen Raten $\lambda)$ eingetragen.
- Die jeweilige Entropie $H(Y)$, die ebenfalls von der Rate $\lambda$ abhängt, ist in der ersten Zeile angegeben.
- Die Spalten für $\lambda = 1$ sind in den Teilaufgaben (3) und (4) zu ergänzen.
- In der Teilaufgabe (6) sollen diese Ergebnisse interpretiert werden.
Hinweise:
- Die Aufgabe gehört zum Kapitel Einige Vorbemerkungen zu zweidimensionalen Zufallsgrößen.
- Insbesondere wird Bezug genommen auf die Seite Relative Entropie – Kullback-Leibler-Distanz.
- Um die numerischen Berechnungen in Grenzen zu halten, werden folgende Hilfsgrößen vorgegeben; hierbei bezeichnet $\rm \lg$ den Logarithmus zur Basis $10$:
- $$A\hspace{0.05cm}' = 0.4096 \cdot {\rm lg} \hspace{0.1cm} \frac{0.4096}{0.3679} + 0.2048 \cdot {\rm lg} \hspace{0.1cm} \frac{0.2048}{0.1839} + 0.0512 \cdot {\rm lg} \hspace{0.1cm} \frac{0.0512}{0.0613} + 0.0064 \cdot {\rm lg} \hspace{0.1cm} \frac{0.0064}{0.0153} + 0.0003 \cdot {\rm lg} \hspace{0.1cm} \frac{0.0003}{0.0031} \hspace{0.05cm},$$
- $$B\hspace{0.05cm}' = 0.1839 \cdot {\rm lg} \hspace{0.1cm} (0.1839) + 0.0613 \cdot {\rm lg} \hspace{0.1cm} (0.0613) + 0.0153 \cdot {\rm lg} \hspace{0.1cm} (0.0153) + 0.0031 \cdot {\rm lg} \hspace{0.1cm} (0.0031) + 0.0005 \cdot {\rm lg} \hspace{0.1cm} (0.0005) + 0.0001 \cdot {\rm lg} \hspace{0.1cm} (0.0001)$$
- $$\Rightarrow \hspace{0.3cm} A\hspace{0.05cm}' \hspace{0.15cm} \underline {= 0.021944} \hspace{0.05cm},\hspace{0.5cm} B\hspace{0.05cm}' \hspace{0.15cm} \underline {= -0.24717} \hspace{0.05cm}.$$
Fragebogen
Musterlösung
- $${\rm Pr} (X = 5) = {5 \choose 5} \cdot p^{5} = p^{5} \approx 0.0003 \hspace{0.05cm}.$$
Somit erhält man für
- die charakteristische Wahrscheinlichkeit: $p= (0.0003)^{1/5} = 0.1974 \hspace{0.15cm} \underline {\approx 0.2}\hspace{0.05cm},$
- den linearen Mittelwert (Erwartungswert): $m_X = I \cdot p \hspace{0.15cm} \underline {= 1}\hspace{0.05cm},$
- die Varianz: $\sigma_X^2 = I \cdot p \cdot (1-p) \hspace{0.15cm} \underline {= 0.8}\hspace{0.05cm}.$
(2) Richtig ist der Lösungsvorschlag 2:
- Bei Verwendung von $D(P_Y \hspace{0.05cm}|| \hspace{0.05cm} P_X)$ würde sich unabhängig von $λ$ stets ein unendlicher Wert ergeben, da für $\mu ≥ 6$ gilt:
- $$P_X (X = \mu) = 0 \hspace{0.05cm},\hspace{0.3cm}P_Y (Y = \mu) \ne 0 \hspace{0.05cm}.$$
- Auch wenn die Wahrscheinlichkeiten $P_Y (Y = \mu)$ für große $μ$ sehr klein werden, sind sie doch „unendlich viel größer” als $P_X (X = \mu)$.
(3) Wir verwenden die erste Kullback–Leibler–Distanz:
- $$D = D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) =\hspace{0.2cm} \sum_{\mu = 0}^{5} P_X(\mu) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_X(\mu)}{P_Y(\mu)} \hspace{0.05cm}.$$
- Bei Verwendung des Zehnerlogarithmus $(\lg)$ erhalten wir für die Poisson–Näherung mit $\lambda = 1$:
- $$D \hspace{0.05cm}' = 0.3277 \cdot {\rm lg} \hspace{0.1cm} \frac{0.3277}{0.3679} + A \hspace{0.05cm}' = -0.016468 + 0.021944 = 0.005476 \hspace{0.05cm}.$$
- Nach Umrechnung auf den Zweierlogarithmus $(\log_2)$ erhält man schließlich:
- $$D = D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) = \frac{0.005476}{{\rm lg} \hspace{0.1cm}(2)} \hspace{0.15cm} \underline {\approx 0.0182\ {\rm (bit)}}\hspace{0.05cm}.$$
(4) Unter Verwendung des Zehnerlogarithmus lautet die Entropie der Poisson–Näherung $(\lambda = 1)$:
- $$H\hspace{0.05cm}'(Y) = -{\rm E} \left [{\rm lg} \hspace{0.1cm} {P_Y(Y)} \right ] = -2 \cdot 0.3679 \cdot {\rm lg} \hspace{0.1cm} (0.3679) - B\hspace{0.05cm}' = 0.31954 + 0.24717 = 0.56126.$$
- Die Umrechnung in „bit” liefert das gesuchte Ergebnis:
- $$H(Y) = \frac{0.56126}{{\rm lg} \hspace{0.1cm}(2)} \hspace{0.15cm} \underline {= 1.864\ {\rm (bit)}} \hspace{0.05cm}.$$
(5) Richtig ist die Aussage 1. Bei der numerischen Berechnung der Kullback–Leibler–Distanz ist
- der Beitrag des $μ$–ten Terms positiv, falls $P_Y(\mu) > P_X(\mu)$,
- der Beitrag des $μ$–ten Terms negativ, falls $P_Y(\mu) < P_X(\mu)$.
(6) Zutreffend ist der Lösungsvorschlag 1:
- Auch aus der Grafik ist ersichtlich, dass $D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) =0.0182$ bit von keinem anderen $λ$–Wert als $λ = 1$ unterschritten wird (grüne Kreuze).
- Weiter erkennt man aus dieser Darstellung, dass man mit $λ = 0.9$ eine bessere Entropie–Approximation als mit $λ = 1$ erreicht (blaue Kreise):
- $$H(Y) = 1.795\ {\rm bit} \hspace{0.15cm}\approx \hspace{0.15cm} H(X) = 1.793\ {\rm bit}\hspace{0.05cm}.$$
- Der zweite Lösungsvorschlag ist also falsch.
- Mit $λ = 1$ stimmen die linearen Mittelwerte der beiden Zufallsgrößen überein:
- $$m_X = m_Y= 1.$$
- Mit $λ = 0.9$ stimmen die quadratischen Mittelwerte überein:
- $$m_X + \sigma_X^2 = m_Y + \sigma_Y^2= 1.8.$$
Ob diese Aussage relevant ist, lassen wir dahingestellt.
Denn: Aufgrund der stetigen Zunahme von $H(Y)$ mit zunehmendem $λ$ ist klar, dass für irgendeinen $λ$–Wert tatsächlich $H(Y) = H(X)$ gelten muss.