WnioskowanieStatystyczne/Bonferroni: Różnice pomiędzy wersjami
(→dowód) |
|||
Linia 53: | Linia 53: | ||
w każdym testów z osobna. I to niezależnie od tego, czy testy są niezależne czy nie, ani od wartości ''m<sub>0</sub>'', czyli od tego jak wiele z hipotez ''H<sub>i</sub>'' jest prawdziwych: | w każdym testów z osobna. I to niezależnie od tego, czy testy są niezależne czy nie, ani od wartości ''m<sub>0</sub>'', czyli od tego jak wiele z hipotez ''H<sub>i</sub>'' jest prawdziwych: | ||
− | <math> \text{FWER} \leq\sum_{i=1}^{m_0} P\left(p_i\leq\frac \alpha m\right) | + | <math> \text{FWER} = P\left\{ \bigcup_{i=1}^{m_0}\left(p_i\leq\frac \alpha m \right) \right\} \leq \sum_{i=1}^{m_0} P\left(p_i\leq\frac \alpha m\right) |
\leq m_0 \frac{\alpha}{m} | \leq m_0 \frac{\alpha}{m} | ||
\leq m \frac{\alpha}{m} = \alpha.</math> | \leq m \frac{\alpha}{m} = \alpha.</math> | ||
− | Jak widać jest to poprawka bardzo konserwatywna, wymuszająca przeprowadzanie testów na potencjalnie zaniżonych poziomach istotności <math>\frac{\alpha}{m}</math>. | + | -- skorzystaliśmy z [https://en.wikipedia.org/wiki/Boole%27s_inequality nierówności Boole'a]. Jak widać jest to poprawka bardzo konserwatywna, wymuszająca przeprowadzanie testów na potencjalnie zaniżonych poziomach istotności <math>\frac{\alpha}{m}</math>. |
Sprawdźmy jak zadziała w przykładzie 7 grup: mamy 21 porównań, jeśli chcemy utrzymać prawdopodobieństwo co najmniej jednego błędu I rodzaju na poziomie 5%, każdy test musimy wykonać na poziomie 0,05 / 21 = ok. 0.002381, czyli mniej niż 0,0024%! Wtedy prawdopodobieństwo popełnienia jednego błędu I rodzaju wyniesie | Sprawdźmy jak zadziała w przykładzie 7 grup: mamy 21 porównań, jeśli chcemy utrzymać prawdopodobieństwo co najmniej jednego błędu I rodzaju na poziomie 5%, każdy test musimy wykonać na poziomie 0,05 / 21 = ok. 0.002381, czyli mniej niż 0,0024%! Wtedy prawdopodobieństwo popełnienia jednego błędu I rodzaju wyniesie |
Wersja z 07:30, 29 maj 2018
Wnioskowanie_Statystyczne_-_wykład
Spis treści
Błędy I i II rodzaju
Przyjęcie poziomu istotności ([math]\alpha[/math]) na poziomie 5 procent oznacza, że średnio w jednym na dwadzieścia przypadków możemy odrzucić prawdziwą hipotezę, czyli popełnić błąd I rodzaju (false positive).
Dla kompletności przypomnijmy, że błąd II rodzaju polega na przyjęciu hipotezy fałszywej (false negative) i jest związany z poziomem istotności testu.
Pojęcia błędów I i II rodzaju, podobnie jak hipotezy zerowej (H0) wprowadzili do statystyki Jerzy Spława-Neyman i Egon Pearson w latach 30. XX wieku.
hipoteza H0 | |||
Prawdziwa | Fałszywa | ||
---|---|---|---|
decyzja | Odrzuć | błąd typu I (False Positive) | poprawna (True Positive) |
Przyjmij | poprawna (True Negative) | błąd typu II (False Negative) |
Wielokrotne porównania
Problem wielokrotnych porównań (ang. multiple comparisons) pojawia się w eksploracyjnej (w odróżnieniu od konfirmacyjnej) analizie danych, por. np. http://en.wikipedia.org/wiki/Data_dredging zwane też p-hacking.
Przykład
[math]N[/math] obserwacji podzielonych na 7 grup. Testujemy hipotezę o różnicy między średnimi dowolnych par grup, wykonując [math]\binom{7}{2}=21[/math] testów różnic między dwoma grupami.
Załóżmy, że podziału na 7 grup dokonaliśmy zupełnie przypadkowo, czyli że nie powinna wystąpić istotna statystycznie różnica między średnimi żadnej pary. Jeśli test dla każdej pary wykonujemy na poziomie istoności p=5%, to przyjmujemy, że z prawdopodobieństwem 0,05 test może wykazać różnicę (FP). Prawdopodobieństwo, że test nie wykaże różnicy, wynosi[1] 1 - 0,05 = 0,95. Prawdopodobieństwo, że test poprawnie nie wykaże różnicy we wszystkich 21 porównaniach, wynosi (0,95)21 czyli ok. 0,34. Tak więc prawdopodobieństwo, że przynajmniej w jednej parze grup test fałszywie wykaże różnicę, pomimo wykonywania każdego testu na poziomie istotności 0,05 wynosi aż 1 - 0,34 = 0,66!
FWER: family-wise error rate
Poziom istotności zdefiniowany dla pojedynczych testów zastępujemy pojęciem FWER, czyli prawdopodobieństwem popełnienia przynajmniej jednego błędu I rodzaju w grupie (rodzinie) testów.
Poprawka Bonferroniego
gwarantuje, że jeśli każdy z m testów wykonamy na poziomie istotności [math]\frac{\alpha}{m}[/math], to [math]\mathrm{FWER}=\alpha[/math].
Rozważmy rodzinę m hipotez Hi (w powyższym przykładzie m = 21), przypisując każdej Hi p-wartość (ang. p-value) pi. Niech m0 z tych hipotez będzie prawdziwych. FWER, czyli prawdopodobieństwo popełnienia przynajmniej jednego błędu I rodzaju w którymś z m testów hipotez Hi, będzie nie większy niż suma prawdopodobieństw popełnienia błędu I rodzaju [math] P\left(p_i\leq\frac \alpha m\right)[/math] w każdym testów z osobna. I to niezależnie od tego, czy testy są niezależne czy nie, ani od wartości m0, czyli od tego jak wiele z hipotez Hi jest prawdziwych:
[math] \text{FWER} = P\left\{ \bigcup_{i=1}^{m_0}\left(p_i\leq\frac \alpha m \right) \right\} \leq \sum_{i=1}^{m_0} P\left(p_i\leq\frac \alpha m\right) \leq m_0 \frac{\alpha}{m} \leq m \frac{\alpha}{m} = \alpha.[/math]
-- skorzystaliśmy z nierówności Boole'a. Jak widać jest to poprawka bardzo konserwatywna, wymuszająca przeprowadzanie testów na potencjalnie zaniżonych poziomach istotności [math]\frac{\alpha}{m}[/math].
Sprawdźmy jak zadziała w przykładzie 7 grup: mamy 21 porównań, jeśli chcemy utrzymać prawdopodobieństwo co najmniej jednego błędu I rodzaju na poziomie 5%, każdy test musimy wykonać na poziomie 0,05 / 21 = ok. 0.002381, czyli mniej niż 0,0024%! Wtedy prawdopodobieństwo popełnienia jednego błędu I rodzaju wyniesie
[math] 1 - \left( 1 - \frac{0,05}{21} \right)^{21} \approx 0,0488 [/math]
czyli mniej niż 0,05.
Analogiczny wynik dostaniemy np. dla tysiąca testów
[math] 1 - \left( 1 - \frac{0,05}{1000} \right)^{1000} \approx 0,0488 [/math]
ale wtedy każdy z testów musielibyśmy wykonywać na poziomie istotności 0,00005. Zwróćmy uwagę, że dla tysiąca testów przeprowadzonych na poziomie istotności 5% powinniśmy oczekiwać średnio pięćdziesięciu (!) błędów I rodzaju, czyli fałszywie odrzuconych hipotez zerowych.
Poprawka Bonferroniego-Holma
P-wartości pi odpowiadające hipotezom Hi sortujemy w kolejności od najmniejszej do największej
p(1) < p(2) < ... < p(m)
Dla [math]\textrm{FWER}=\alpha[/math] znajdujemy najmniejsze k, dla którego
[math]p_k \gt \frac{\alpha}{m+1-k}[/math]
i odrzucamy hipotezy H1 ... Hk-1, przyjmując Hk ... Hm.
dowód
Załóżmy, że wśród m testowanych Hi jest m0 hipotez prawdziwych.
Musimy dowieść, że prawdopodobieństwo popełnienia błędu I rodzaju w tej procedurze jest nie większe niż [math]\alpha[/math].
Zaczynamy od H1: niech pierwszą prawdziwą odrzuconą hipotezą (pierwszy błąd I rodzaju, false positive) będzie Hk. To znaczy, że Hk-1 była ostatnią hipotezą fałszywą, i
- [math]k - 1 + m_0 \leq m \implies m_0 \leq m - k + 1[/math].
Skoro Hk została odrzucona, to z definicji procedury
- [math] p_k \leq \frac{\alpha}{m - k +1} \leq \frac{\alpha}{m_0}[/math]
bo skoro [math]m_0 \leq m - k + 1[/math], to [math]\frac{\alpha}{m - k +1} \leq \frac{\alpha}{m_0}[/math]. Odpowiada to poprawce Bonferroniego w zbiorze m0 hipotez prawdziwych.
False Discovery Rate FDR
...w podobnej procedurze kontroluje oczekiwany stosunek liczby hipotez błędnie odrzuconych do liczby hipotez odrzuconych. Poniżej przykład zastosowania z artykułu On the statistical significance of event-related EEG desynchronization and synchronization in the time-frequency plane. PDF.
Evaluation of measurement data — Guide to the expression of uncertainty in measurement
JCGM 100:2008 GUM 1995 with minor corrections http://www.iso.org/sites/JCGM/GUM-JCGM100.htm
3.4.8 Although this Guide provides a framework for assessing uncertainty, it cannot substitute for critical thinking, intellectual honesty and professional skill. The evaluation of uncertainty is neither a routine task nor a purely mathematical one; it depends on detailed knowledge of the nature of the measurand and of the measurement. The quality and utility of the uncertainty quoted for the result of a measurement therefore ultimately depend on the understanding, critical analysis, and integrity of those who contribute to the assignment of its value.
- ↑ dla testów niezależnych; w tym przykładzie wyniki testów nie będą niezależne -- dlaczego?