Spezielle stetige Verteilungen

Themen auf dieser Seite

Stetige Zufallsvariablen

Diskrete Zufallsvariablen sind dadurch gekennzeichnet, dass man die Anzahl ihrer Ausprägungen abzählen kann. Das Zufallsverhalten einer diskreten Zufallsvariablen X mit k Ausprägungen x_i mit i = 1,2,\dots,k und den Eintrittswahrscheinlichkeiten p_i = P(X = x_i) lässt sich vollständig durch die Wahrscheinlichkeitsfunktion f(x) oder die Verteilungsfunktion F(x) charakterisieren.

Bei stetigen Zufallsvariablen ist die Trägermenge, also die Menge der möglichen Realisationen, ein Intervall. Das Verhalten einer stetigen Zufallsvariablen X lässt sich wie im diskreten Fall durch die Verteilungsfunktion

    \begin{align*} F(x) = P(X\leq x) \end{align*}

vollständig charakterisieren.

Definition: Eine Zufallsvariable X heißt stetig, wenn sich ihre Verteilungsfunktion als Integral einer Funktion: f (x): \mathbb{R} \rightarrow [0,1) schreiben lässt:

    \begin{align*} F (x)=P(X\leq x)=\int_{-\infty}^x f (t)~\textrm{d}t, \quad \forall x \in \mathbb{R} \end{align*}

Bemerkungen

  • Wer sich nun wundert, warum wir auf einmal f(t) statt f(x) schreiben: Weil wir das x schon für die Verteilungsfunktion F verwenden, müssen wir uns bei der Dichte kurzfristig einen neuen Buchstaben überlegen.
  • Die Funktion f (x) heißt Dichtefunktion und vermittelt einen visuellen Eindruck der Verteilung.
  • Merke: f(x)\neq P(X=x) und F(x)=P(X\leq x)
  • Dichten sind keine Wahrscheinlichkeiten, aber vielmehr gibt die Fläche unter der Dichtefunktion die Wahrscheinlichkeit an: Integralrechnung!
  • Eine Zufallsvariable X wird als stetig bezeichnet, wenn sie überabzählbar unendlich viele Werte annimmt.
  • Der Wertebereich ist meistens ein Intervall aller reellen Zahlen oder die Menge aller reellen Zahlen selbst.
  • Bei einer stetigen Zufallsvariablen ist P(X = x) = 0, da es als unmöglich angesehen wird, genau einen bestimmten Wert x zu „treffen“. Man betrachtet bei einer stetigen Zufallsvariablen nur Wahrscheinlichkeiten der Art P(X \leq x), welche durch die Verteilungsfunktion charakterisiert wird, siehe Gl. (1).
  • Die Dichtefunktion f und die Verteilungsfunktion F enthalten die gleiche Information. Der Unterschied besteht lediglich in der Darstellung dieser Information.

Dichtefunktion einer stetigen Zufallsvariablen

 

Es gelten folgende Eigenschaften für die Dichtefunktion:

  • Nichtnegativität: f(x)>0 ~ \forall x \in \mathbb{R}
  • Normiertheit: \int_{-\infty}^{\infty} f(x) ~\textrm{d}x=1, das entspricht der Fläche unter der Funktion!

Merke:

  • Es wird immer ein Intervall betrachtet.
  • Die Wahrscheinlichkeit für exakt einen Wert ist immer gleich Null!

Beispiel

Carlo fragt Markus, wie hoch die Wahrscheinlichkeit sei, dass es heute 32 Grad werden. Markus hat den StudyHelpKurs Stochastik bereits im letzten Jahr gehört und sagt: „0“. Carlo fragt nach einer Begründung. Als erstes antwortet Markus, dass es sich um eine stetige ZV handelt und führt dann folgende Rechnung aus. Er denkt sich als Funktion f(x) = 1/10 aus.

1. P=(32 \leq X \leq 32) für P(X=32)

2. Es gilt: \int_{-\infty}^{\infty} f(x) ~\textrm{d}x = \int_{32}^{32} \frac{1}{10} ~\textrm{d}x = \left[ \frac{1}{10}\cdot 32-\frac{1}{10} \cdot 32 \right] = 0

Verteilungsparameter stetiger Zufallsvariablen

Verteilungsparameter sind Größen, die bestimmte Aspekte einer Verteilung charakterisieren, wie zum Beispiel Lage, Streuung oder Schiefe einer Verteilung.

Wichtige Parameter sind:

Erwartungswert (Lageparameter):

  • Der Erwartungswert ist der Schwerpunkt der Verteilung und beschreibt die Zahl, die die Zufallsvariable im Mittel annimmt.
  • Ist die Zufallsvariable X stetig, so ist die Verteilung durch die Dichte f(x) bestimmt. Die Randwerte von -\infty bis \infty bedeuten, dass über den gesamten definierten Bereich integriert wird.
  • Der Erwartungswert wird auch oft als \mu bezeichnet.

    \begin{align*} \mu=E(X)=\int_{-\infty}^{\infty} x\cdot f(x) ~\textrm{d}x \end{align*}

Varianz (Streuungsparameter)

  • Varianz beschreibt die Streuung einer ZV.
  • Die Varianz von der stetigen ZV X ist der Erwartungswert der quadrierten Abweichung von ihrem Erwartungswert:

    \begin{align*} \sigma^2=V(X) =\int_{-\infty}^{\infty} (x_j-\mu)^2 \cdot f(x) ~\textrm{d}x \end{align*}

  • Der Verschiebungssatz \sigma^2=\int_{-\infty}^{\infty} x^2 f(x)~\textrm{d}x - \mu^2 erleichtert meist die Berechnung der Varianz.

Standardabweichung (Streuungsparameter)

  • Die Standardabweichung ist die positive Wurzel aus der Varianz und gibt die Streuung der Werte um den Mittelwert an.
  • Damit ist die Standardabweichung ebenfalls ein Maß für die Streuung, nur dass sie etwas langsamer ansteigt als die Varianz. Kennt man die Varianz, dann kann diese leicht in die Standardabweichung umgerechnet werden (und umgekehrt).

    \begin{align*} \sigma=\sqrt{V(X)}=\sqrt{\sigma^2} \end{align*}

Beispiel

An einem Uni-Tag, falls dieser Tag nicht Freitag ist, geht Daniel zwischen 10:00 Uhr und 10:36 Uhr zur Bushaltestelle. Seine dortige Wartezeit auf den Bus beträgt zwischen 0 und 12 Minuten. Es sei zudem die Dichtefunktion der Wartezeit bekannt mit f(x) = 1/12 für x \in [0,12] und 0 sonst.

1. Berechne Erwartungswert, Varianz und Standardabweichung.

Hierbei handelt sich um eine stetige Zufallsvariable, da die Wartezeit immer weiter unterteilt werden kann (Minuten, Sekunden, Millisekunden). Aus diesem Grund sind die Formeln der stetigen Zufallsvariablen zu wählen.

    \begin{align*} \mu=E(X)&=\int_{0}^{12} x\cdot f(x) ~\textrm{d}x=\int_{0}^{12} \frac{1}{12}~x~\textrm{d}x \\ &= \left[\frac{1}{24}~x^2 \right]_0^{12}=\frac{1}{24}\cdot 12^2 - \frac{1}{24} \cdot 0^2=6 \end{align*}

Die erwartete Wartezeit beträgt 6 Minuten.

    \begin{align*} \sigma^2=V(X)&=\int_{0}^{12} x^2\cdot f(x) ~\textrm{d}x - \mu^2=\int_{0}^{12} \frac{1}{12}~x^2~\textrm{d}x - 6^2 \\ &= \left[\frac{1}{36}~x^3 \right]_0^{12}=\left( \frac{1}{36}\cdot 12^3 - \frac{1}{36} \cdot 0^3 \right)-36=12 \end{align*}

2. Wie groß ist die Wahrscheinlichkeit, dass er zwischen 5 Minuten und 8 Minuten warten muss?

    \begin{align*} P(X\leq x)&=\int_{5}^{8} f(x) ~\textrm{d}x = \int_{5}^{8} \frac{1}{12} ~\textrm{d}x \\ &= \left[\frac{1}{12}~x^3 \right]_5^{8}=\frac{1}{12}\cdot 8 - \frac{1}{12} \cdot 0^5=0,25 \end{align*}

Die Wahrscheinlichkeit, dass er zwischen 5 Minuten und 8 Minuten warten muss, beträgt 25%.

 

Normalverteilung

Die Normal- oder Gauß-Verteilung (oder Glockenkurve) ist die wichtigste stetige Verteilung.

X heißt normalverteilt oder Gauß-verteilt mit den Parametern \mu \in \mathbb{R} und \sigma^2>0, kurz X \sim N(\mu,\sigma^2), wenn X folgende Dichte hat

    \begin{align*} f(x)=\frac{1}{\sigma \cdot \sqrt{2 \pi}} \cdot e^{- \frac{1}{2} \cdot (\frac{x-\mu}{\sigma})^2}, \ \forall x \in \mathbb{R} \notag \end{align*}

Gucken wir uns kurz die Formel genau an.

  • \frac{1}{\sigma \cdot \sqrt{2 \pi}}: Der Vorfaktor normiert alle Funktionswerte, so dass diese zwischen 0 und 1 liegen.
  • e^{- \frac{1}{2} \cdot (\frac{x-\mu}{\sigma})^2}: Dieser Faktor gibt die Häufigkeit von x an.

Verteilungsparameter:

  • Erwartungswert: E(x)=\mu, beschreibt x mit der größten Häufigkeit (Hochpunkt der Glocke)
  • Varianz: V(x)=\sigma^2
  • Standardabweichung: \sigma, gibt Breite der Kurve an

 

Daniel erklärt dir in seinem Lernvideo was eine Normalverteilung ist!

Was ist die Normalverteilung, Gauß-Verteilung, Schaubilder, Übersicht | Mathe by Daniel Jung

 

Standardisieren von normalverteilten Zufallsvariablen

Die Verteilungsfunktion der Normalverteilung kann man nicht mit einer Formel im Taschenrechner berechnen. Das Integral über der Dichtefunktion lässt sich nämlich nicht mit Stift und Papier lösen:

    \begin{align*} F(x)=\frac{1}{\sigma \cdot \sqrt{2 \pi}} \int_{-\infty}^x e^{- \frac{1}{2} \cdot (\frac{t-\mu}{\sigma})^2}~\textrm{d}t, \ \forall x \in \mathbb{R} \notag \end{align*}

Wir nehmen dafür eine Verteilungstabelle mit der man Werte F(x) der Verteilungsfunktion jeder beliebigen Normalverteilung bestimmen kann. Allerdings gibt es unendlich viele Normalverteilungen, sodass wir ausschließlich eine Tabelle für Standardnormalverteilungen X \sim N(0,1) mit \mu=0 und \sigma^2=1 verwenden. Wir müssen also die normalverteilten Zufallsvariablen standardisieren und dann deren Wert anhand der Verteilungstabelle bestimmen! Es gilt:

    \begin{align*} P(X\leq x)= P(Z \leq \frac{x-\mu}{\sigma}) = \Phi (\frac{x-\mu}{\sigma})=\Phi(z) \end{align*}

mit der standardisierten Zufallsvariable Z=\frac{X-\mu}{\sigma}. Die Standardnormalverteilung wird dabei statt F(x) mit \Phi(z) notiert, um Verwechslungen mit der unstandardisierten Verteilungsfunktion zu vermeiden.

Beispiel Angenommen, wir haben eine Zufallsvariable X\sim N(4,1) und möchten ihre Verteilungsfunktion an der Stelle x=3 wissen. Wir suchen also die Wahrscheinlichkeit, dass diese Zufallsvariable einen Wert kleiner oder gleich 3 erhält. Man muss sich jetzt klar darüber werden, dass das genau dasselbe ist, wie wenn ich für eine Zufallsvariable Z\sim N(0,1) die Verteilungsfunktion an der Stelle x=-1 suche. Warum? Weil wir die Normalverteilung um \mu=4 in den Ursprung verschieben und die Standardnormalverteilung erhalten: Z=(3-4)/1=-1.

 

Wie lese ich Φ-Werte ab?

Um die Werte von \Phi (ausgesprochen: Phi) abzulesen, verwenden wir die Tabelle der Standardnormalverteilung, die ihr dann in der Klausur bekommen werdet. In der folgenden Abbildung seht ihr einen Ausschnitt einer solchen Tabelle und Beispiele, wie man mit der Tabelle umgehen muss. Das Ablesen sollte euch keine Probleme machen!

Wie lese ich Phi-Werte ab?

 

Wahrscheinlichkeiten für Intervalle

Es sei X \sim N(\mu,\sigma^2) und a,\ b \in \mathbb{R},\ a \leq b, dann gilt:

    \begin{align*} P(a \leq X \leq b)&= \Phi \left( \frac{b-\mu}{\sigma} \right) - \Phi \left( \frac{a-\mu}{\sigma} \right) \notag \\ P(X\leq b)&= \Phi \left( \frac{b-\mu}{\sigma} \right) \notag \\ P(X > a)&=1- \Phi \left( \frac{a-\mu}{\sigma} \right) \notag \end{align*}

Wichtig: Wegen Symmetrie der Dichtefunktion gilt \Phi(-z)=1- \Phi(z). Falls also in der Klammer von \Phi eine negative Zahl rauskommt, könnt ihr diese so umschreiben.

Es folgt eine Skizze einer Normalverteilungsdichte mit \mu=0 und \sigma^2=1. Sie hat ihr Maximum an der Stelle \mu und fällt im Bereich von ungefähr \pm 3 \pi. Außerhalb eines Abstandes von 3\pi ist die Dichte nahe bei Null.

Normalverteilung

Beispiele

1. Die Punktevergabe der Abi-Klausur ist normalverteilt mit \mu=81,07 und \sigma =3. Die Schülerin Chantalle hat 85 Punkte erreicht. Wie viel Prozent ihrer Mitschüler waren schlechter als sie?

Aus dem Aufgabentext geht hervor, dass es sich um eine normalverteile Zufallsvariable handet mit X \sim N(81,07;9). Um die Wahrscheinlichkeit zu bestimmen, standardisieren wir die Zufallsvariable und erhalten für Z=\frac{85-81,07}{3}=1,31. Es folgt:

    \begin{align*} P(X \leq 85) = P(Z \leq 1,31)= \Phi \left( Z \right)= \Phi \left( 1,31 \right)=90,49 \end{align*}

Ein Blick in die Tabelle der Standardnormalverteilung verrät uns, dass 90,49% der der Mitschüer schlechter als Chantalle waren.

Normalverteilung

2. Bestimme die Werte für folgende Normalverteilungen.

i) X\sim N(-1;4) und P(X\leq 0):

    \begin{align*} P(X\leq 0) = P\left(Z \leq \frac{0-(-1)}{2}\right) = P(Z\leq 0,5) = \Phi (0,5)=0,6915 \end{align*}

ii) X\sim N(0;5) und P(X > 2):

    \begin{align*} P(X > 2) = 1-P(X\leq 2)=1- P\left(Z \leq \frac{2-0}{\sqrt{5}}\right) = 1- \Phi (0,89)=0,1867 \end{align*}

iii) X\sim N(150;100) und P(160<X \leq 170):

    \begin{align*} P(X \leq 170) - P(X\leq 160) &= P\left(Z \leq \frac{170-150}{10}\right) - P\left(Z \leq \frac{160-150}{10}\right) \\ &= \Phi (2) - \Phi(1)=0,977-0,841=0,136 \end{align*}

 

Quantile bestimmen

Quantile oder genauer gesagt \alpha-Quantile sind Werte, die eine Menge an Daten in zwei Teile spalten. Ein Anteil dieser Daten ist mindestens \alpha kleiner oder gleich dem \alpha-Quantil und mindestens ein Anteil ist 1-\alpha größer oder gleich dem \alpha-Quantil. Ein 0,3-Quantil ist dasselbe wie ein 30%-Quantil und bedeutet, dass die Daten in die niedrigen 30% und die hohen 70% aufgeteilt werden. Übrigens: Der Median ist nichts anderes als das 50%-Quantil.

Das \alpha-Quantil einer Normalverteilung bestimmt man genau umgekehrt wie den Wert der Verteilungsfunktion.

Wir schlagen zuerst das \alpha-Quantil der Standardnormalverteilung in der Verteilungstabelle nach. Nennen wir es z_\alpha. Anschließend transformieren wir es in das Quantil q_\alpha der tatsächlichen Normalverteilung, indem wir es erst mit \sigma multiplizieren und dann noch \mu addieren. Es gilt:

    \begin{align*} q_\alpha = \mu + \sigma \cdot z_\alpha \end{align*}

Beispiele Bestimme das

i) 50%-Quantil q_{0,5} und es sei X\sim N(-1;4):

    \begin{align*} q_{0,5}= \mu + \sigma \cdot z_{0,5} = -1 + \sqrt{4} \cdot 0 = -1 \end{align*}

Merke: Das 50\%-Quantil jeder Normalverteilung ist immer \mu.

ii) 97,5%-Quantil q_{0,975} und es sei X\sim N(0;5):

    \begin{align*} q_{0,975}= \mu + \sigma \cdot z_{0,975} = 0 + \sqrt{5} \cdot 1,96 = 4,382 \end{align*}

iii) 10%-Quantil q_{0,1} und es sei X\sim N(150;100):

    \begin{align*} q_{0,1}= \mu + \sigma \cdot \underbrace{z_{0,1}}_{=-z_{0,9}} = 150 + \sqrt{100} \cdot (-1,28) = 137,2 \end{align*}

 

Approximation der Binomialverteilung durch die Normalverteilung

Bei der praktischen Anwendung der Binomialverteilung kann es vorkommen, das sehr große Werte von n, z.B. n=10000 auftreten, wodurch das Berechnen der Wahrscheinlichkeiten sehr zeitaufwendig wird. Wir haben dann die Möglichkeit, die Binomialverteilung durch die Normalverteilung anzunähern (approximieren).

Die Annäherung geht aber nur, wenn eine der beiden folgenden Bedingungen erfüllt ist:

  • Laplace-Bedingung \sigma = \sqrt{n\cdot p \cdot (1-p)}>3 oder
  •  n\cdot p >4 \underline{und} n\cdot (1-p) >4

Die nachfolgende Übersicht zeigt die Annäherung der Normalverteilung an die Binomialverteilung. Wenn die Bedingungen erfüllt sind, kann man mit den Näherungswerten gut arbeiten.

Binomialverteilung durch Normalverteilung annäherung

Warum hilft uns das überhaupt? Bei der Binomialverteilung können nur ganze Zahlen über Null eingesetzt werden. Durch die Ersetzung durch die Normalverteilung können für x nun alle Werte, egal ob Komma-Zahlen oder negative Zahlen eingesetzt werden. Wenn eine der beiden Bedingungen erfüllt ist, gilt:

    \begin{align*} P(X \leq x)=\Phi \left( \frac{x-np}{\sqrt{np(1-p)}} \right) =\Phi \left(\frac{x-\mu}{\sigma} \right) \end{align*}

Bei der Approximation einer diskreten Verteilungsfunktion durch eine stetige, muss noch eine Stetigkeitskorrektur vorgenommen werden. Man erhält:

    \begin{align*} P(X \leq x) &\approx \Phi \left( \frac{x+0,5-np}{\sqrt{np(1-p)}} \right) \\ P(X \geq x) &\approx 1-\Phi \left( \frac{x-0,5-np}{\sqrt{np(1-p)}} \right) \\ P(a < X \leq b) &\approx \Phi \left( \frac{b+0,5-np}{\sqrt{np(1-p)}} \right) - \Phi \left( \frac{a-0,5-np}{\sqrt{np(1-p)}} \right) \end{align*}

Merke: Es wird hier eine diskrete Verteilung durch eine stetige Verteilung approximiert, deswegen muss eine Stetigkeitskorrektur durchgeführt werden, die je nach Aufgabenstellung \pm 0,5 beträgt.

Beispiel

Ein Drittel aller Ehepaare sind im Mittel kinderlos. X sei die Anzahl der kinderlosen Paare unter 120 zufällig ausgewählten. Grundlegend handelt es sich hierbei um eine Binomialverteilung mit den Parametern n = 120 und p=1/3. Mit welcher Wahrscheinlichkeit befinden sich darunter

1. nicht mehr als 48 kinderlose Paare?

Aus der Fragestellung geht hervor, dass die Berechnung der Einzeltreffer sehr lange dauern würde. Zudem sollte erkannt werden, dass die Laplace-Bedingung mit \sigma\approx 5,16>3 erfüllt ist. Dadurch ist eine Approximation von der Binomialverteilung durch die Normalverteilung möglich.

    \begin{align*} X \sim B(n,p) \approx N(\mu, \sigma^2) \end{align*}

Zur Berechnung der Normalverteilung ist es allerdings notwendig die Parameter \mu und \sigma^2 zu kennen.

Erwartungswert: \mu=E(X) = n\cdot p = 120\cdot 1/3 = 40

Varianz: \sigma^2 = V(X) = n \cdot p \cdot (1-p) = 120\cdot 1/3 \cdot (1-1/3)=26,67

Dann folgt:

    \begin{align*} P(X \leq 48) \approx \Phi \left( \frac{48+0,5-40}{\sqrt{26,67}} \right) =\Phi(1,65)=0,9505 \end{align*}

Die Wahrscheinlichkeit beträgt ungefähr 95,05 %.

2. mehr als 30 aber höchstens 50 kinderlose Ehepaare?

In dieser Aufgabenstellung wird ersichtlich, dass es sich um ein Intervall handelt. Wie wir schon festgestellt haben, können wir die Binomialverteilung durch die Normalverteilung approximieren:

    \begin{align*} X \sim B (n,p) \approx N (\mu,\sigma^2) \end{align*}

Den Erwartungswert und die Varianz haben wir bereits ermittelt. Dann folgt:

    \begin{align*} P(30 < X \leq 50) &\approx \Phi \left( \frac{50+0,5-40}{\sqrt{26,67}} \right) - \Phi \left( \frac{30-0,5-40}{\sqrt{26,67}} \right) \\ &= \Phi(2,03)-\Phi(-2,03) \\ &= \Phi(2,03)- ( 1- \Phi(2,03)) \\ &= 2\cdot \Phi(2,03) - 1 = 2 \cdot 0,9788 - 1 = 0,9576 \end{align*}

Die Wahrscheinlichkeit, dass mehr als 30 aber höchstens 50 kinderlose Ehepaare unter allen Ehepaaren befinden beträgt ungefähr 95,76 %.