WnioskowanieStatystyczne/Rozklady: Różnice pomiędzy wersjami

Z Brain-wiki
(Utworzono nową stronę " ==Rozkład równomierny== ... zwany też jednostajnym, prostokątnym lub płaskim, przyjmuje jednakowe wartości dla wszystkich liczb z jakiegoś odcinka (na przykład...")
 
(UWAGA! Usunięcie treści (strona pozostała pusta)!)
Linia 1: Linia 1:
  
==Rozkład równomierny==
 
 
... zwany też jednostajnym, prostokątnym lub płaskim, przyjmuje jednakowe wartości dla wszystkich liczb z jakiegoś odcinka (na przykład między zero a jeden), a poza tym odcinkiem ma wartość zero:
 
 
<math>\begin{matrix}
 
p(x) =  1 & \textrm{ dla } & 0\leq x\leq 1
 
\\
 
p(x) =  0 & \textrm{ dla } & x>1\ \textrm{  lub  }\ x<0.
 
\end{matrix}</math>
 
 
[[Plik:Rozklad_plaski.png|300px|thumb|left|<figure id="fig:rozw2"></figure>Rozkład równomierny określony na odcinku od zera do jedynki.
 
]]
 
 
Wartość oczekiwana
 
 
<math>
 
\mu =E(x)=\int\limits_0^1 x dx=\left[\frac{x^{2}}{2}\right]_0^1=\frac{1}{2}.
 
</math>
 
 
Wariancja
 
 
<math>
 
\sigma ^{2}=E((x-\mu )^{2})= \int\limits_0^1 \left(x-\frac 1 2 \right)^2 dx =
 
\int\limits_0^1\left(x^2 - x +\frac 14\right) dx = \left[\frac{x^3}3 - \frac{x^2}2 +\frac x 4
 
\right]^1_0 = \frac 1 {12}.
 
</math>
 
 
Oczywiście rozkład jednostajny może być określony na dowolnym odcinku <math>(a, b)</math> &mdash; wystarczy przeskalować opisaną powyżej kanoniczną postać:
 
 
<math>\begin{matrix}
 
p(x) =  \frac{1}{b-a} & \textrm{ dla } & a\leq x\leq b
 
\\
 
p(x) =  0 & \textrm{ dla } & x<a\ \textrm{  lub  }\ x>b.
 
\end{matrix}</math>
 
 
Proste modyfikacje przytoczonych powyżej całek wykażą, że jego wartość oczekiwana wynosi
 
 
<math>\frac{a+b}{2},</math>
 
 
a wariancja
 
 
<math>\frac{(b-a)^2}{12}</math>.
 
 
 
==Rozkład dwumianowy==
 
 
Powtarzamy <math>n</math> razy doświadczenie o dwóch możliwych
 
wynikach <math>A</math> i <math>\overline{A}</math> oraz
 
prawdopodobieństwach odpowiednio <math>p</math> i <math>q</math>, przy
 
czym <math>p+q=1</math>. Wynik <math>A</math> nazywamy sukcesem i
 
pytamy, jakie jest prawdopodobieństwo <math>k</math> sukcesów?
 
 
Liczba <math>k</math>-elementowych podciągów ciągu
 
<math>n</math>-elementowego wynosi <math>\frac{n!}{(n-k)!}</math>,
 
czyli <math>n(n-1)(n-2)...(n-k+1)</math>; na pierwszym miejscu każdego
 
z ciągów możemy ustawić każdy z <math>n</math> elementów, po jego
 
ustaleniu na drugim miejscu każdy z <math>n-1</math> elementów itd.
 
Jeśli ponadto nie rozróżniamy podciągów o różnej kolejności elementów,
 
to liczbę tę podzielić należy przez ilość permutacji (przestawień)
 
zbioru <math>k</math>-elementowego, czyli <math>k!</math>. W rezultacie
 
dostajemy <ref> Symbol <math>\binom{n}{k}</math> występuje również we
 
wzorze na wspólczynniki <math>n</math>-tej potęgi sumy: <math>
 
(a+b)^{n}=\sum_{k=0}^n \binom{n}{k}a^{k}b^{n-k} </math>
 
</ref>
 
 
<equation id=eq:68">
 
<math>
 
\frac{n!}{k!(n-k)!}=\binom{n}{k}.
 
</math>
 
</equation>
 
 
Niech <math>P_{n}(k)</math> oznacza prawdopodobieństwo wystąpienia
 
<math>k</math> razy zdarzenia o prawdopodobieństwie <math>p</math> w
 
serii <math>n</math> powtórzeń. Prawdopodobieństwo jednej serii
 
<math>k</math> zdarzeń <math>A</math> i <math>(n-k)</math> zdarzeń
 
<math>\overline{A}</math> wynosi <math>p^k q^{(n-k)}</math>.  Zgodnie
 
z powyższymi rozważaniami, takich serii, które różnią się kolejnością
 
wystąpienia zdarzeń <math>p</math> i <math>q</math>, będzie
 
<math>\binom n k</math>. Ostatecznie rozkład dwumianowy możemy opisać
 
następującym wzorem:
 
 
 
<math>
 
P_{n}(k)=\binom{n}{k}p^{k}q^{n-k}=\frac{n!}{k!(n-k)!}p^{k}(1-p)^{n-k}.
 
</math>
 
 
Rysunek <xr id="fig:rozw2"> %i</xr> przedstawia rozkłady dwumianowe
 
dla różnych wartości <math>p</math> i <math>n</math>.  Wartość
 
oczekiwana <math>\mu</math> i wariancja <math>\sigma^2</math> rozkładu
 
dwumianowego wyrażają się następującymi wzorami:
 
 
<math>
 
\mu=np, \qquad \sigma^2=npq. 
 
</math>
 
 
===Dowód===
 
 
Bezpośrednie rachunki są w tym przypadku żmudne, więc dla znalezienia
 
wartości oczekiwanej i wariancji rozkładu dwumianowego posłużymy się
 
zmienną losową <math>x_{i}</math>, opisującą wynik pojedynczego
 
doświadczenia. Przyjmuje ona wartość 1, jeśli zaszło zdarzenie
 
<math>A</math> (sukces) i 0 w przypadku porażki. Rozkład liczby
 
sukcesów w serii <math>n</math> powtórzeń opisuje zmienna będąca ich
 
sumą <math>X=\sum\limits_{i=1}^n x_{i}</math>.
 
 
Wartość oczekiwana zmiennej <math>x_i</math>, czyli wyniku ''pojedynczego''
 
doświadczenia, wynosi
 
 
<math>
 
E(x_i)=\sum\limits_i x_i P(X=x_i) = 1\cdot p + 0\cdot q = p.
 
</math>
 
 
Wartość oczekiwana sumy <math>n</math> zmiennych <math>x_i</math>,
 
dającej wartość zmiennej opisywanej rozkładem dwumianowym, będzie (z
 
[[STAT:Momenty#label-eq:61|liniowości wartości oczekiwanej]]) sumą
 
wartości oczekiwanych &mdash; stąd wartość oczekiwana rozkładu
 
dwumianowego wyniesie <math>n p</math>.  Z kolei wariancja
 
<math>x_i</math> wynosi
 
 
<math>
 
\sigma^2(x_i)=E((x_{i}-\mu)^{2})=\sum\limits_i (x_i-p)^2P(X=x_i)= (1-p)^{2}p+(0-p)^{2}q =q^{2}p+p^{2}q=pq(p+q)=pq.
 
</math>
 
 
Wariancja rozkładu dwumianowego będzie równa wariancji sumy <math>n</math> zmiennych <math>x_i</math>. Ponieważ zmienne te są niezależne,
 
 
<math>
 
\sigma^2\left(\sum_{i=1}^{n}x_i\right) = n\sigma^2(x_i) = npq.
 
</math>
 
 
 
 
[[Plik:Rozklad_dwumian.png|300px|thumb|left|<figure id="fig:rozw2">
 
</figure> Dwumianowe rozkłady prawdopodobieństwa dla <math>p=\frac 1
 
6</math>, <math>\frac{1}{2}=\ i\ = 0.8</math> oraz <math>n=5=\ i\ =
 
20</math>]]
 
 
=== Przykład:rozkład dwumianowy===
 
 
Obliczmy rozkład prawdopodobieństwa wyrzucenia <math>k</math> szóstek
 
w pięciu rzutach kostką (symulowany w [[STAT:Z_komputerem|rozdziale o
 
metodzie Monte Carlo]]): <math>p=\nicefrac{1}{6}</math>, <math>q=\nicefrac{5}{6}</math>,
 
<math>\binom{5}{0}=1</math>, <math>\binom{5}{1}=5</math> i tak dalej.
 
 
{|class=wikitable
 
|-
 
|<math>k=</math>
 
|0
 
|1
 
|2
 
|3
 
|4
 
|5
 
|-
 
|<math>P_5(k)\approx</math>
 
| 0,4019
 
| 0,4019
 
| 0,1608
 
| 0,0322
 
| 0,0032
 
| 0,0001
 
|}
 
 
Wartości te przedstawione są na wykresie w lewym górnym rogu rysunku
 
<xr id="fig:rozw2"> %i</xr>. Prawdopodobieństwo wyrzucenia przynajmniej
 
dwóch (czyli od dwóch do pięciu) szóstek wynosi
 
<equation id="eq:70">
 
<math>0,1608+0,0322+0,0032+0,0001\approx 0,1962</math>.
 
</equation>
 
 
Z kolei rozkład liczby sukcesów w stu takich grach, przybliżany
 
numerycznie na [[STAT:Z_komputerem#label-fig:13|rysunku]], będzie odpowiadał <math>P_{100}(k)</math> dla <math>p=0,1962</math>.
 
Suma tego rozkładu dla <math>k>20</math> wynosi <math>0,4034</math>.
 
 
=== Przykład: trzy dziewczynki===
 
 
Obliczmy prawdopodobieństwo, że wśród czworga dzieci będą co najmniej
 
trzy dziewczynki &mdash; zakładając, że prawdopodobieństwa urodzenia dziecka
 
każdej płci są równe.
 
 
"Co najmniej trzy dziewczynki" można zasymulować jako cztery lub trzy
 
"sukcesy" w czterech "losowaniach płci" o prawdopodobieństwie sukcesu <math>\frac{1}{2}</math>, czyli
 
 
<center><math> P_4(4)+P_4(3)=\binom{4}{4}\left(\frac 12\right)^4 +
 
\binom{4}{3}\left(\frac 12\right)^4 = (1+4)\left(\frac 12\right)^4 =
 
\frac{5}{16}= 0,3125, </math></center>
 
 
zgodnie z wynikiem symulacji z [[zadania]].
 
 
===Przykład:===
 
 
W rzutach do kosza uzyskiwaliśmy średnio 6 trafień na 10 rzutów. Po
 
zmianie techniki w pierwszych 10 rzutach uzyskaliśmy 9 trafień. Czy
 
należy wnioskować, że nowa technika rzutów poprawia średnią trafień?
 
 
Jeśli zmiana techniki nie wpłynęła na skuteczność, to prawdopodobieństwo
 
uzyskania 9 lub więcej trafień na 10 rzutów odpowiada 9 lub 10 sukcesom w 10
 
losowaniach o prawdopodobieństwie 0,6, czyli:
 
 
<center><math>\begin{matrix}
 
P_{10}(9)+P_{10}(10)=\binom{10}{9}(0,6)^9 0,4+\binom{10}{10}(0,6)^{10} = \\
 
= (0,6)^9(10\cdot0,4+0,6)
 
\approx
 
0,0101\cdot 4,6=0,046.
 
\end{matrix}</math></center>
 
 
Czyli mniej niż 5% &mdash; zgodnie z wynikiem [[symulacji]].
 
 
 
==Rozkład Poissona==
 
 
W granicy dużej liczby <math>n</math> zdarzeń o niskim
 
prawdopodobieństwie <math>p</math>, tj. <math>n\rightarrow \infty ,</math> <math>np=\lambda =const., </math> otrzymujemy z rozkładu
 
dwumianowego rozkład Poissona:
 
 
<equation id="eq:72">
 
<math>
 
P_{n}(k)=P_{\lambda}(k)=\frac{\lambda ^{k}}{k!}e^{-\lambda }. 
 
</math>
 
</equation>
 
 
===Dowód===
 
 
<math>\begin{matrix}
 
P_{n}(k)&=&\frac{n!}{k!(n-k)!}p^{k}q^{n-k}=
 
\frac{n!}{k!(n-k)!}
 
\left(\frac{\lambda }{n}\right)^{k}\frac{(1-\frac{\lambda
 
}{n})^{n}}{(1-\frac{\lambda }{n})^{k}}=\\
 
&=&\frac{\lambda ^{k}}{k!}\frac{n(n-1)...(n-k+1)(1-\frac{\lambda }{n})^{n}}{n^{k}(1-\frac{\lambda }{n})^{k}}=
 
\\
 
&=&\frac{\lambda ^{k}}{k!}(1-\frac{\lambda }{n})^{n}\frac{(1-\frac{1}{n})
 
(1-\frac{2}{n})...(1-\frac{k-1}{n})}{(1-\frac{\lambda }{n})^{k}}.
 
\end{matrix}</math>
 
 
Ponieważ <math>\underset{n\rightarrow \infty }{\lim }
 
\frac{(1-\frac{1}{n})
 
(1-\frac{2}{n})...(1-\frac{k-1}{n})}{(1-\frac{\lambda }{n})^{k}} =
 
1</math>, oraz <math>\underset{n\rightarrow \infty }{\lim
 
}(1-\frac{\lambda }{n})^{n}=e^{-\lambda}</math>,
 
 
dostajemy <xr id="eq:72">(%i)</xr>.
 
 
'''Sprawdźmy warunek [[STAT:Prawdopodobieństwo#label-eq:43|<math>P(\Omega)=1</math>]]'''
 
 
Przestrzeń wszystkich możliwych zdarzeń wyczerpują tu liczby sukcesów
 
<math>k</math> od zera do <math>n</math>
 
<math>(n\rightarrow\infty)</math>, czyli
 
 
<equation id="eq:73">
 
<math>
 
P(\Omega)=\sum_{k=0}^{\infty} P_{\lambda }(k)=
 
\sum_{k=0}^{\infty} \frac{\lambda ^{k}}{k!}e^{-\lambda }=
 
e^{-\lambda }\sum_{k=0}^{\infty} \frac{\lambda ^{k}}{k!}=
 
e^{-\lambda }e^{\lambda }=1
 
</math>
 
</equation>
 
 
gdyż
 
 
<equation id="eq:74">
 
<math>
 
\sum_{k=0}^{\infty} \frac{\lambda ^{k}}{k!} = e^{\lambda}.
 
</math>
 
</equation>
 
 
===Wartość oczekiwana i wariancja===
 
 
wynoszą:
 
<equation id="eq:75">
 
<math>
 
\mu(k)=\sigma^2(k)=\lambda.
 
</math>
 
</equation>
 
 
====Dowód====
 
<math>
 
E(k)=\underset{k=0}{\overset{\infty }{\sum }}k\frac{\lambda ^{k}}{k!}
 
e^{-\lambda }=\lambda e^{-\lambda }\underset{k=1}{\overset{\infty }{\sum }}
 
\frac{\lambda ^{k-1}}{(k-1)!}=\lambda e^{-\lambda }\underset{l=0}{\overset{
 
\infty }{\sum }}\frac{\lambda ^{l}}{l!}=\lambda e^{-\lambda } e^{\lambda }=\lambda,
 
</math>
 
 
<math>\begin{matrix}
 
\sigma ^{2}(k)&
 
{=}&
 
E(k^{2})-\{E(k)\}^{2}=\ \left(\underset{k=0}{\overset{\infty }
 
{\sum}}k^{2}\frac{\lambda ^{k}}{k!}e^{-\lambda } \right) -\lambda ^{2}=
 
\\
 
&=&\lambda e^{-\lambda}\underset{k=1}{\overset{\infty }{\sum }}\frac{k\lambda ^{k-1}}{(k-1)!}-\lambda ^{2}
 
=\lambda \{e^{-\lambda }\underset{l=0}{\overset{\infty }{\sum }}(l+1)\frac{\lambda ^{l}}{l!}-\lambda \}=
 
\\
 
&=&\lambda \{e^{-\lambda }\underset{l=0}{\overset{\infty }{\sum }}l
 
\frac{\lambda ^{l}}{l!}+e^{-\lambda }\underset{l=0}{\overset{\infty }{\sum }}
 
\frac{\lambda ^{l}}{l!}-\lambda\} =\end{matrix}</math>
 
 
z <xr id="eq:74">(%i)</xr>
 
 
<math>
 
= \lambda (\lambda +1-\lambda )=\lambda .
 
</math>
 
 
Jeśli wariancja rozkładu Poissona jest równa jego wartości oczekiwanej (<math>\lambda</math>), to odchylenie standardowe <math>\sigma</math> (czyli pierwiastek z wariancji) wyniesie
 
 
<math>
 
\sigma ^{2}(k)=\lambda \Rightarrow \sigma (k)=\sqrt{\lambda }=\sqrt{np}.
 
</math>
 
 
Wynik ten przytaczany bywa jako "prawo" określające błąd liczby
 
zliczeń jako jej pierwiastek.
 
 
[[Plik:Rozklad_poissona.png|300px|thumb|left|<figure id="fig:rozw2"></figure>Rozkłady Poissona dla różnych wartości parametru <math>\lambda</math>.]]
 
 
==Rozkład Gaussa==
 
 
Rozkład Gaussa (zwany też rozkładem normalnym lub krzywą dzwonową) zależy od
 
parametrów <math>\mu</math> i <math>\sigma</math>. Jego gęstość prawdopodobieństwa określona jest wzorem:
 
<equation id="eq:78">
 
<math>
 
p(x)=N(\mu, \sigma)= \frac{1}{\sqrt{2\pi }\sigma }e^{\frac{-(x-\mu )^{2}}{2\sigma ^{2}}}.
 
</math>
 
</equation>
 
 
Parametry te są tak dobrane, że wartość oczekiwana wynosi
 
<math>\mu</math>, a wariancja <math>\sigma^2</math>, co można
 
sprawdzić wstawiając <xr id="eq:78">(%i)</xr> do wzorów na
 
[[STAT:Momenty#label-eq:60|wartość oczekiwaną]] i
 
[[STAT:Momenty#label-eq:63|wariancję]].
 
 
[[Plik:Rozklad_gaussa.png|300px|thumb|left|<figure
 
id="fig:rozklad_gaussa"></figure><math>N(0,1)</math>, czyli
 
standardowy rozkład Gaussa o zerowej średniej (<math>\mu=0</math>) i
 
jednostkowej wariancji (<math>\sigma=1</math>).]]
 
 
Rozkład Gaussa dla zerowej wartości oczekiwanej i jednostkowej
 
wariancji (<math>\mu=0, \sigma^2=1</math>) zwiemy ''standardowym
 
rozkładem Gaussa'' i oznaczamy zwykle <math>N(0,1)</math>.
 
Przedstawia go rysunek <xr id="fig:rozklad_gaussa"> %i</xr>.
 
Zaznaczono na nim m. in. wartość całki od <math>-\infty</math> do
 
<math>-1</math>, czyli prawdopodobieństwo, że wylosowana z tego
 
rozkładu liczba będzie mniejsza niż <math>-1</math>. Jak widać, wynosi
 
ono ok. 16%, a jeśli weźmiemy pod uwagę również wartości większe od 1,
 
będzie to aż 32%! Oznacza to, że przy losowaniu wielu liczb z tego
 
rozkładu prawie dwie spośród pięciu mogą znaleźć się w odległości
 
większej niż <math>\sigma</math> od wartości oczekiwanej. Warto o tym
 
pamiętać, gdyż odchylenie standardowe <math>\sigma</math> bywa czasami
 
nazywane "błędem".  Stwierdzenie "w granicach błędu" może odnosić się
 
raczej np.do wartości 3<math>\sigma</math>: prawdopodobieństwo
 
wylosowania wartości oddalonej od średniej o więcej niż
 
<math>3\sigma</math> dla rozkładu Gaussa wynosi zaledwie 0,3 wartości
 
prawdopodobieństw odchyleń większych niż <math>1\div 3\sigma</math>
 
dla zmiennych z rozkładu normalnego:
 
 
<equation id="eq:80">
 
<math>
 
x\in N(\mu,\sigma)\quad \Rightarrow \quad
 
\begin{cases}
 
P(\left| x-\mu \right| \geq \sigma )\approx 0,\!317,\\
 
P(\left| x-\mu \right| \geq 2\sigma )\ \approx 0,\!046,\\
 
\ P(\left| x-\mu \right| \geq 3\sigma )\approx 0,\!003.
 
\end{cases}
 
</math>
 
</equation>
 
 
Należy jednak pamiętać, że gęstość prawdopodobieństwa dana równaniem
 
<xr id="eq:78">(%i)</xr> zanika w nieskończoności tylko
 
asymptotycznie, i dlatego w świetle tego rozkładu prawdopodobieństwo
 
wylosowania ''dowolnej'' wartości będzie niezerowe (choć dla
 
większości niezmiernie małe). Prowadzi to czasem do paradoksów, jak
 
np. niezerowe prawdopodobieństwo ujemnej masy.<ref>Gaussowski
 
rozkład pomiarów jakiejkolwiek masy, określony dodatnimi wartościami
 
<math>\mu</math> i <math>\sigma</math>, będzie wykazywał nieujemne &mdash;
 
choć zapewne bardzo małe &mdash; prawdopodobieństwo również dla ujemnych
 
wartości zmiennej losowej, którą w tym przypadku będzie mierzona
 
masa.</ref> Jest to cena za korzystanie ze zwięzłej i eleganckiej
 
postaci analitycznej rozkładu.
 
 
--------------------
 
<references>
 

Wersja z 13:38, 22 maj 2015