WnioskowanieStatystyczne/Regresja liniowa: Różnice pomiędzy wersjami

Z Brain-wiki
 
(Nie pokazano 28 pośrednich wersji utworzonych przez tego samego użytkownika)
Linia 6: Linia 6:
  
 
Pary pomiarów <math>(x_{i},y_{i})</math>. Dla każdego
 
Pary pomiarów <math>(x_{i},y_{i})</math>. Dla każdego
<math>x_{i},y_{i}</math> traktujemy jak zmienną losową z rozkładu
+
<math>x_{i}</math>, <math>y_{i}</math> traktujemy jak zmienną losową z rozkładu
 
normalnego o wartości średniej <math>a+b</math> <math>x_{i}</math> i wariancji <math>\sigma _{i}^{2}</math>.  Prawdopodobieństwo
 
normalnego o wartości średniej <math>a+b</math> <math>x_{i}</math> i wariancji <math>\sigma _{i}^{2}</math>.  Prawdopodobieństwo
 
''a posteriori'' otrzymania <math>N</math> wyników <math>y_{i}</math>
 
''a posteriori'' otrzymania <math>N</math> wyników <math>y_{i}</math>
 
dla określonych <math>x_{i}</math> przy założeniu wartości
 
dla określonych <math>x_{i}</math> przy założeniu wartości
 
<math>a</math> i <math>b</math>
 
<math>a</math> i <math>b</math>
 +
  
 
<math>
 
<math>
P(\overline{y}\mid \overline{x},a,b)=\underset{i=1}{\overset{N}{\prod }}
+
P(\overline{y} \mid \overline{x}, a, b)
\frac{1}{\sqrt{2\pi \sigma _{i}^{2}}}e^{\frac{(y_{i}-a-bx_{i})^{2}}{2\sigma
+
=\underset{i=1}{\overset{N}{\prod }}
_{i}^{2}}}=\frac{1}{\sqrt{(2\pi )^{n}}}\underset{i=1}{\overset{N}{\prod }}
+
\frac{1}{\sqrt{2\pi \sigma _{i}^{2}}}e^{\frac{(y_{i}-a-bx_{i})^{2}}{2\sigma_{i}^{2}}}
\frac{1}{\sigma _{i}}e^{-\frac{1}{2}\underset{i=1}{\overset{N}{\sum }}\frac{
+
=\frac{1}{\sqrt{(2\pi )^{n}}} \; \underset{i=1}{\overset{N}{\prod }}  
 +
\frac{1}{\sigma _{i}} \; e^{-\frac{1}{2}\underset{i=1}{\overset{N}{\sum }}\frac{
 
(y_{i}-a-bx_{i})^{2}}{\sigma _{i}^{2}}}
 
(y_{i}-a-bx_{i})^{2}}{\sigma _{i}^{2}}}
 
</math>
 
</math>
  
logarytmiczna <math>\rightarrow</math> '''funkcja wiarygodności''':
+
 
 +
logarytmiczna funkcja wiarygodności:
 +
 
  
 
<math>
 
<math>
Linia 28: Linia 32:
 
</math>
 
</math>
  
<math>\sigma _{i}</math> zwykle nie znamy, możemy przyjąć
+
 
<math>\forall i \sigma _{i}=\sigma</math>. Pozostaje szukanie minimum
+
<math>\sigma _{i}</math> zwykle nie znamy, więc przyjmujemy jako stałą
sumy <math>S=\underset{i=1}{\overset{N}{\sum
+
<math>\forall i \sigma _{i}=\sigma</math>. Pozostaje szukanie minimum
}}(y_{i}-a-bx_{i})^{2}</math>, w zerze pochodnej po parametrach
+
sumy  
 +
 
 +
<math>S=\underset{i=1}{\overset{N}{\sum
 +
}}(y_{i}-a-bx_{i})^{2}</math>
 +
 
 +
w zerze pochodnej po parametrach
 
<math>a</math> i <math>b</math>
 
<math>a</math> i <math>b</math>
 +
  
 
<math>
 
<math>
\frac{\partial S}{\partial a}=-2\underset{i=1}{\overset{N}{\sum }}
+
\frac{\partial S}{\partial a}=-2\underset{i=1}{\overset{N}{\sum }}(y_{i}-a-bx_{i})\\
(y_{i}-a-bx_{i}),\ \ \ \ \ \ \ \ \frac{\partial S}{\partial b}=-2\underset{}{
+
\underset{i=1}{\overset{N}{\sum }} \left(y_i - a - bx_i\right) = 0 \\
\underset{i=1}{\overset{N}{\sum }}x_{i}}(y_{i}-a-bx_{i}), \dots
+
 
 +
\underset{i=1}{\overset{N}{\sum }} y_i = \underset{i=1}{\overset{N}{\sum }} a + b\underset{i=1}{\overset{N}{\sum }} x_i \\
 +
 
 +
\underset{i=1}{\overset{N}{\sum }} y_i = N a + b\underset{i=1}{\overset{N}{\sum }} x_i \\
 +
 
 +
\frac{1}{N}
 +
\underset{i=1}{\overset{N}{\sum }} y_{i}  
 +
= a + \frac{1}{N} b \underset{i=1}{\overset{N}{\sum }} x_i
 
</math>
 
</math>
  
 
<math>
 
<math>
D=N\underset{i=1}{\overset{N}{\sum }}x_{i}^{2}-\left( \underset{i=1}{
+
\bar{y} = a + b\bar{x}
\overset{N}{\sum }}x_{i}\right) ^{2}
 
 
</math>
 
</math>
  
 
<math>
 
<math>
a=\frac{\underset{i=1}{\overset{N}{\sum }}y_{i}\underset{i=1}{\overset{N}{\sum }}x_{i}^{2}-\underset{i=1}{\overset{N}{\sum }}x_{i}
+
a = \bar{y} - b\bar{x}
\underset{i=1}{\overset{N}{\sum }}x_{i}y_{i}}{D},
 
\qquad
 
b=\frac{N\underset{i=1}{\overset{N}{\sum }}x_{i}y_{i}-\left( \underset{i=1}{\overset{N}{\sum }}x_{i}\right) \left( \underset{i=1}{\overset{N}{\sum }}
 
y_{i}\right) }{D}
 
 
</math>
 
</math>
  
lub:
+
 
 +
 
 +
wyznaczone stąd <math>a</math> podstawiamy do wzoru na <math>S</math>
  
 
<math>
 
<math>
b=\frac{\underset{i=1}{\overset{N}{\sum }}(x_{i}-\overline{x})(y_{i}-
+
S=\underset{i=1}{\overset{N}{\sum
\overline{y})}{\underset{i=1}{\overset{N}{\sum }}(x_{i}-\overline{x})^{2}},
+
}}(y_{i}-a-bx_{i})^{2}
\qquad a=\overline{y}-b\overline{x}
 
 
</math>
 
</math>
  
===Interpretacja współczynnika korelacji===
+
<math>
 
+
= \underset{i=1}{\overset{N}{\sum}}(y_{i}-\bar{y} - b\bar{x}-bx_{i})^{2}
Rozważmy wariancję zmiennej <math>y</math> z poprzedniego
+
</math>
rozdziału. Niech <math>y_{i}^{p}=a+bx_{i}</math>
 
  
 
<math>
 
<math>
\underset{i=1}{\overset{N}{\sum }}(y_{i}-\overline{y})^{2}=
+
=\underset{i=1}{\overset{N}{\sum}}
\underset{i=1}{\overset{N}{\sum }}(y_{i}-y_{i}^{p}+y_{i}^{p}-\overline{y}
+
\left( (y_{i}-\bar{y}) - b (x_i - \bar{x}) \right)^2
)^{2}=\underset{i=1}{\overset{N}{\sum }}(y_{i}-y_{i}^{p})^{2}+\underset{i=1}{
+
</math>
\overset{N}{\sum }}(y_{i}^{p}-\overline{y})^{2}+2\underset{i=1}{\overset{N}{
 
\sum }}(y_{i}-y_{i}^{p})(y_{i}^{p}-\overline{y})
 
</math>  
 
  
Całkowitą wariancię zmiennej <math>y</math> podzieliliśmy na dwa
 
człony: wariancję estymaty <math>y_{i}^{p}</math> wokół wartości
 
średniej <math>\overline{y}</math> i wariancję obserwowanych
 
<math>y_{i}</math> wokół estymaty <math>y_{i}^{p}</math> (trzeci człon
 
znika).
 
  
'''Współczynnik korelacji''' możemy estymować jako
+
po podstawieniu przyrównujemy do zera pochodną po <math>b</math>
  
 
<math>
 
<math>
\rho ^{2}=\frac{\left( \underset{i=1}{\overset{N}{\sum }}(x_{i}-
+
\dfrac{\partial S}{\partial b}= -2\sum_{i=1}^N \left( (y_{i} - \bar{y}) - b(x_{i} - \bar{x})\right)\left(x_{i}-\bar{x}\right) = 0
\overline{x})(y_{i}-\overline{y})\right) ^{2}}{\underset{i=1}{\overset{N}{
 
\sum }}(x_{i}-\overline{x})^{2}\underset{i=1}{\overset{N}{\sum }}(y_{i}-
 
\overline{y})^{2}}
 
 
</math>
 
</math>
  
Rozważmy
+
 
 
<math>
 
<math>
{ \underset{i=1}{\overset{N}{\sum }}(y_{i}^{p}-\overline{y})^{2}=b^{2}
+
\sum_{i=1}^N \left(y_{i} - \bar{y}\right)\left(x_i - \bar{x}\right) - b\sum_{i=1}^N \left(x_i - \bar{x}\right)^2 = 0
\underset{i=1}{\overset{N}{\sum }}(x_{i}-\overline{x})^{2}=\frac{\left(
 
\underset{i=1}{\overset{N}{\sum }}(x_{i}-\overline{x})(y_{i}-\overline{y}
 
)\right) ^{2}}{\left( \underset{i=1}{\overset{N}{\sum }}(x_{i}-\overline{x}
 
)^{2}\right) ^{2}}\underset{i=1}{\overset{N}{\sum }}(x_{i}-\overline{x}
 
)^{2}=\ }
 
 
</math>
 
</math>
 +
  
 
<math>
 
<math>
{ =\frac{\left( \underset{i=1}{\overset{N}{\sum }}(x_{i}-\overline{x}
+
b = \dfrac{\sum_{i=1}^N \left(y_{i} - \bar{y}\right)\left(x_i - \bar{x}\right)}{\sum_{i=1}^N \left(x_{i}-\bar{x}\right)^2}
)(y_{i}-\overline{y})\right) ^{2}}{\underset{i=1}{\overset{N}{\sum }}(x_{i}-
 
\overline{x})^{2}}\frac{\underset{i=1}{\overset{N}{\sum }}(y_{i}-\overline{y}
 
)^{2}}{\underset{i=1}{\overset{N}{\sum }}(y_{i}-\overline{y})^{2}}=\rho ^{2}
 
\underset{i=1}{\overset{N}{\sum }}(y_{i}-\overline{y})^{2}\ }
 
 
</math>
 
</math>
  
czyli
+
 
 +
i ostatecznie dostajemy znajome wzory:
  
 
<math>
 
<math>
{ \rho ^{2}=\frac{\underset{i=1}{\overset{N}{\sum }}(y_{i}^{p}-
+
b=\dfrac{\underset{i=1}{\overset{N}{\sum }}(x_{i}-\overline{x})(y_{i}-
\overline{y})^{2}}{\underset{i=1}{\overset{N}{\sum }}(y_{i}-\overline{y})^{2}
+
\overline{y})}{\underset{i=1}{\overset{N}{\sum }}(x_{i}-\overline{x})^{2}},
}\ }
+
\qquad a=\overline{y}-b\overline{x}
 
</math>
 
</math>

Aktualna wersja na dzień 18:49, 25 kwi 2024

Wnioskowanie_Statystyczne_-_wykład


Regresja liniowa

Pary pomiarów [math](x_{i},y_{i})[/math]. Dla każdego [math]x_{i}[/math], [math]y_{i}[/math] traktujemy jak zmienną losową z rozkładu normalnego o wartości średniej [math]a+b[/math] [math]x_{i}[/math] i wariancji [math]\sigma _{i}^{2}[/math]. Prawdopodobieństwo a posteriori otrzymania [math]N[/math] wyników [math]y_{i}[/math] dla określonych [math]x_{i}[/math] przy założeniu wartości [math]a[/math] i [math]b[/math]


[math] P(\overline{y} \mid \overline{x}, a, b) =\underset{i=1}{\overset{N}{\prod }} \frac{1}{\sqrt{2\pi \sigma _{i}^{2}}}e^{\frac{(y_{i}-a-bx_{i})^{2}}{2\sigma_{i}^{2}}} =\frac{1}{\sqrt{(2\pi )^{n}}} \; \underset{i=1}{\overset{N}{\prod }} \frac{1}{\sigma _{i}} \; e^{-\frac{1}{2}\underset{i=1}{\overset{N}{\sum }}\frac{ (y_{i}-a-bx_{i})^{2}}{\sigma _{i}^{2}}} [/math]


logarytmiczna funkcja wiarygodności:


[math] l=-\frac{N}{2}\ln 2\pi +\ln (\underset{i=1}{\overset{N}{\prod }}\frac{1}{ \sigma _{i}})-\frac{1}{2}\underset{i=1}{\overset{N}{\sum }}\frac{ (y_{i}-a-bx_{i})^{2}}{\sigma _{i}^{2}} [/math]


[math]\sigma _{i}[/math] zwykle nie znamy, więc przyjmujemy jako stałą [math]\forall i \sigma _{i}=\sigma[/math]. Pozostaje szukanie minimum sumy

[math]S=\underset{i=1}{\overset{N}{\sum }}(y_{i}-a-bx_{i})^{2}[/math]

w zerze pochodnej po parametrach [math]a[/math] i [math]b[/math]


[math] \frac{\partial S}{\partial a}=-2\underset{i=1}{\overset{N}{\sum }}(y_{i}-a-bx_{i})\\ \underset{i=1}{\overset{N}{\sum }} \left(y_i - a - bx_i\right) = 0 \\ \underset{i=1}{\overset{N}{\sum }} y_i = \underset{i=1}{\overset{N}{\sum }} a + b\underset{i=1}{\overset{N}{\sum }} x_i \\ \underset{i=1}{\overset{N}{\sum }} y_i = N a + b\underset{i=1}{\overset{N}{\sum }} x_i \\ \frac{1}{N} \underset{i=1}{\overset{N}{\sum }} y_{i} = a + \frac{1}{N} b \underset{i=1}{\overset{N}{\sum }} x_i [/math]

[math] \bar{y} = a + b\bar{x} [/math]

[math] a = \bar{y} - b\bar{x} [/math]


wyznaczone stąd [math]a[/math] podstawiamy do wzoru na [math]S[/math]

[math] S=\underset{i=1}{\overset{N}{\sum }}(y_{i}-a-bx_{i})^{2} [/math]

[math] = \underset{i=1}{\overset{N}{\sum}}(y_{i}-\bar{y} - b\bar{x}-bx_{i})^{2} [/math]

[math] =\underset{i=1}{\overset{N}{\sum}} \left( (y_{i}-\bar{y}) - b (x_i - \bar{x}) \right)^2 [/math]


po podstawieniu przyrównujemy do zera pochodną po [math]b[/math]

[math] \dfrac{\partial S}{\partial b}= -2\sum_{i=1}^N \left( (y_{i} - \bar{y}) - b(x_{i} - \bar{x})\right)\left(x_{i}-\bar{x}\right) = 0 [/math]


[math] \sum_{i=1}^N \left(y_{i} - \bar{y}\right)\left(x_i - \bar{x}\right) - b\sum_{i=1}^N \left(x_i - \bar{x}\right)^2 = 0 [/math]


[math] b = \dfrac{\sum_{i=1}^N \left(y_{i} - \bar{y}\right)\left(x_i - \bar{x}\right)}{\sum_{i=1}^N \left(x_{i}-\bar{x}\right)^2} [/math]


i ostatecznie dostajemy znajome wzory:

[math] b=\dfrac{\underset{i=1}{\overset{N}{\sum }}(x_{i}-\overline{x})(y_{i}- \overline{y})}{\underset{i=1}{\overset{N}{\sum }}(x_{i}-\overline{x})^{2}}, \qquad a=\overline{y}-b\overline{x} [/math]