7 Multiples Testen: Difference between revisions
m (Pge moved page Vorlesung 7 to 7 NormalisierungenII) |
|||
(7 intermediate revisions by 2 users not shown) | |||
Line 12: | Line 12: | ||
! Gen !! K1 !! K2 !! K3 !! T1 !! T2 !! T3 !! <math>\overline{X}</math> Kontrolle !! <math>\overline{X}</math> -NAT8L !! fold change !! p-Wert !! pi-Wert | ! Gen !! K1 !! K2 !! K3 !! T1 !! T2 !! T3 !! <math>\overline{X}</math> Kontrolle !! <math>\overline{X}</math> -NAT8L !! fold change !! p-Wert !! pi-Wert | ||
|- | |- | ||
| NAT8L || 340 || 348 || 350 || 2 || 0 || 4 || | | NAT8L || 340 || 348 || 350 || 2 || 0 || 4 || 346 || 2 || 0,0058 || 1 x <math>10^{-5}</math> || 0,05 | ||
|- | |- | ||
| LDH || 57 || 68 || 34 || 112 || 128 || 105 || | | LDH || 57 || 68 || 34 || 112 || 128 || 105 || 53 || 115 || 2,17 || 0,0043 || 21,5 | ||
|- | |- | ||
| IDH || 215 || 110 || 55 || 158 || 357 || 415 || 126,7 || 310 || 2,44 || 0,129 || 645 | | IDH || 215 || 110 || 55 || 158 || 357 || 415 || 126,7 || 310 || 2,44 || 0,129 || 645 | ||
Line 22: | Line 22: | ||
|} | |} | ||
== t-Test== | == t-Test== | ||
Der t-Test wird verwendet, um zu bestimmen, ob die Mittelwerte zweier Stichproben sich signifikant voneinander unterscheiden. Dafür wird die Nullhypothese H0 getestet, sie sagt aus, dass Stichprobe und Kontrolle sich nicht signifikant unterscheiden. In diesem Fall also <math>H_0: \overline{X} Kontrolle = \overline{X}-NAT8L </math> <br> | Der t-Test wird verwendet, um zu bestimmen, ob die Mittelwerte zweier Stichproben sich signifikant voneinander unterscheiden. Dafür wird die Nullhypothese H0 getestet, sie sagt aus, dass Stichprobe und Kontrolle sich nicht signifikant unterscheiden. In diesem Fall also<br> | ||
<math>H_0: \overline{X} Kontrolle = \overline{X}-NAT8L </math> <br> | |||
Die Gegenhypothese H1 sagt aus, dass sich die Ergebnisse signifikant unterscheiden, also <br> | Die Gegenhypothese H1 sagt aus, dass sich die Ergebnisse signifikant unterscheiden, also <br> | ||
<math>H_1: \overline{X} Kontrolle \ne \overline{X}-NAT8L </math> <br> | <math>H_1: \overline{X} Kontrolle \ne \overline{X}-NAT8L </math> <br> | ||
Mit Hilfe des t-Tests wird bestimmt, ob die Nullhypothese zutrifft, oder ob sie verworfen wird und die Gegenhypothese angenommen wird. Die Formel zur Berechnung der t-Werte entspricht: <br> | Mit Hilfe des t-Tests wird bestimmt, ob die Nullhypothese zutrifft, oder ob sie verworfen wird und die Gegenhypothese angenommen wird. Die Formel zur Berechnung der t-Werte entspricht: <br> | ||
<math> t = \frac{\overline{X}_{1} - \overline{X}_{2} }{s_{x} \cdot \surd \frac{1}{n_{1}} + \frac{1}{n_{2}}} </math> <br> | <math> t = \frac{\overline{X}_{1} - \overline{X}_{2} }{s_{x} \cdot \surd \frac{1}{n_{1}} + \frac{1}{n_{2}}} </math> <br> | ||
Line 37: | Line 41: | ||
Nach der Berechnung der t- Werte, Standardabweichung und den Freiheitsgraden werden die t-Werte in die t-Verteilung eingesetzt. Daraus kann mit Hilfe des p-Werts beurteilt werden, ob die Nullhypotese angenommen, oder verworfen wird.<br> | Nach der Berechnung der t- Werte, Standardabweichung und den Freiheitsgraden werden die t-Werte in die t-Verteilung eingesetzt. Daraus kann mit Hilfe des p-Werts beurteilt werden, ob die Nullhypotese angenommen, oder verworfen wird.<br> | ||
===P-Wert=== | ===P-Wert=== | ||
Das geforderte Signifikanzniveau ist P≤0,05, nur dann werden die Ergebnisse als signifikant angesehen.<br> | |||
'''Problem:'''<br> | '''Problem:'''<br> | ||
Line 46: | Line 50: | ||
* Für jeden p-Wert wird ein neuer p-Wert berechnet. | * Für jeden p-Wert wird ein neuer p-Wert berechnet. | ||
* Bestimmter p-Wert wird mit Größe der Stichprobe multipliziert. | * Bestimmter p-Wert wird mit Größe der Stichprobe multipliziert. | ||
<math>P_i* = P_i \cdot n </math> <br> | <math>P_i* = P_i \cdot n </math> <br><br> | ||
'''Parameter:'''<br> | '''Parameter:'''<br> | ||
* <math>P_i = </math> Bestimmter p-Wert für Gen 'i' <br> | * <math>P_i = </math> Bestimmter p-Wert für Gen 'i' <br> | ||
* <math>P_i* = </math> Korrigierter P-Wert für Gen 'i'<br> | * <math>P_i* = </math> Korrigierter P-Wert für Gen 'i'<br> | ||
* n = Größe der Stichprobe | * n = Größe der Stichprobe | ||
{| class="wikitable" style="float:left; margin-right:1em" | {| class="wikitable" style="float:left; margin-right:1em" | ||
|- | |- | ||
Line 66: | Line 72: | ||
! Vorteile || Nachteile | ! Vorteile || Nachteile | ||
|- | |- | ||
| - Statistisch sehr sicher || - | | - Statistisch sehr sicher || - Sehr streng | ||
|- | |- | ||
| || - | | || - Produziert viele falsch negative Ergebnisse | ||
|- | |- | ||
|} | |} | ||
<br><br> | <br><br><br><br><br> | ||
<br> | <br><br><br><br><br><br><br> | ||
<br><br> | <br><br><br><br> | ||
<br> | |||
<br><br> | |||
<br> | |||
<br> | |||
==Lösung 2: Benjamini-Hochberg-Prozedur== | ==Lösung 2: Benjamini-Hochberg-Prozedur== | ||
* Eine Alternative zu Bonferroni, die nicht so streng ist. <br> | * Eine Alternative zu Bonferroni, die nicht so streng ist. <br> | ||
* Es wird ein gewisser Prozentsatz bestimmt, der auch falsch akzeptiert wird. <br> | * Es wird ein gewisser Prozentsatz bestimmt, der auch falsch akzeptiert wird. <br> | ||
* Q als Bezeichnung für die False Discovery Rate (FDR).<br> | * Q als Bezeichnung für die False Discovery Rate (FDR).<br><br> | ||
<br> | |||
# Sortiere alle p-Werte aufsteigend. <br> | # Sortiere alle p-Werte aufsteigend. <br> | ||
# Weise jedem p-Wert einen Rang 'i' zu. <br> | # Weise jedem p-Wert einen Rang 'i' zu. <br> |
Latest revision as of 14:42, 31 January 2021
Multiples Testen
In der Tabelle sind die Werte für 4 Gene dargestellt. Insgesamt wurden 5000 Gene untersucht.
- K1-3 stellen die Kontrollen dar.
- T1-3 die getesteten mit dem NAT8L knock-out.
- Der fold change stellt das Verhältnis von knock-out und Kontrolle dar → Hoch oder runter regulierte Gene.
- Die Ergebnisse sind nicht gut vergleichbar, da sie teilweise eine große Streuung zeigen.
Gen | K1 | K2 | K3 | T1 | T2 | T3 | [math]\displaystyle{ \overline{X} }[/math] Kontrolle | [math]\displaystyle{ \overline{X} }[/math] -NAT8L | fold change | p-Wert | pi-Wert |
---|---|---|---|---|---|---|---|---|---|---|---|
NAT8L | 340 | 348 | 350 | 2 | 0 | 4 | 346 | 2 | 0,0058 | 1 x [math]\displaystyle{ 10^{-5} }[/math] | 0,05 |
LDH | 57 | 68 | 34 | 112 | 128 | 105 | 53 | 115 | 2,17 | 0,0043 | 21,5 |
IDH | 215 | 110 | 55 | 158 | 357 | 415 | 126,7 | 310 | 2,44 | 0,129 | 645 |
HIF1[math]\displaystyle{ \alpha }[/math] | 57 | 58 | 57 | 564 | 570 | 565 | 57,3 | 566,3 | 9,88 | 7,2 x [math]\displaystyle{ 10^{-6} }[/math] | 0,036 |
t-Test
Der t-Test wird verwendet, um zu bestimmen, ob die Mittelwerte zweier Stichproben sich signifikant voneinander unterscheiden. Dafür wird die Nullhypothese H0 getestet, sie sagt aus, dass Stichprobe und Kontrolle sich nicht signifikant unterscheiden. In diesem Fall also
[math]\displaystyle{ H_0: \overline{X} Kontrolle = \overline{X}-NAT8L }[/math]
Die Gegenhypothese H1 sagt aus, dass sich die Ergebnisse signifikant unterscheiden, also
[math]\displaystyle{ H_1: \overline{X} Kontrolle \ne \overline{X}-NAT8L }[/math]
Mit Hilfe des t-Tests wird bestimmt, ob die Nullhypothese zutrifft, oder ob sie verworfen wird und die Gegenhypothese angenommen wird. Die Formel zur Berechnung der t-Werte entspricht:
[math]\displaystyle{ t = \frac{\overline{X}_{1} - \overline{X}_{2} }{s_{x} \cdot \surd \frac{1}{n_{1}} + \frac{1}{n_{2}}} }[/math]
Parameter:
- [math]\displaystyle{ \overline{X}_1 }[/math] = Mittelwert Stichprobe 1
- [math]\displaystyle{ \overline{X}_2 }[/math] = Mittelwert Stichprobe 2
- [math]\displaystyle{ s_x }[/math] = Standardabweichung
- n = Größe der Stichprobe
Nach der Berechnung der t- Werte, Standardabweichung und den Freiheitsgraden werden die t-Werte in die t-Verteilung eingesetzt. Daraus kann mit Hilfe des p-Werts beurteilt werden, ob die Nullhypotese angenommen, oder verworfen wird.
P-Wert
Das geforderte Signifikanzniveau ist P≤0,05, nur dann werden die Ergebnisse als signifikant angesehen.
Problem:
In diesem Fall wurden 5000 Genexpressionen verglichen (n=5000). Statistisch gesehen werden ca. 250 Gene durch Zufall einen p-Wert von [math]\displaystyle{ \leq }[/math] 0,05 haben. → [math]\displaystyle{ \alpha }[/math]-Fehler (Fehler 1. Art)
- Fehler 1. Art: Die Nullhypothese wird verworfen, obwohl sie eigentlich zutrifft.
Lösung 1: Bonferroni-Korrektur
- Für jeden p-Wert wird ein neuer p-Wert berechnet.
- Bestimmter p-Wert wird mit Größe der Stichprobe multipliziert.
[math]\displaystyle{ P_i* = P_i \cdot n }[/math]
Parameter:
- [math]\displaystyle{ P_i = }[/math] Bestimmter p-Wert für Gen 'i'
- [math]\displaystyle{ P_i* = }[/math] Korrigierter P-Wert für Gen 'i'
- n = Größe der Stichprobe
Gen | [math]\displaystyle{ P_i }[/math] | [math]\displaystyle{ P_i* = }[/math] |
---|---|---|
NAT8L | 1,00 x [math]\displaystyle{ 10^{-5} }[/math] | 0,05 → Signifikant |
LDH | 0,0043 | 21,5 |
IDH | 0,129 | 645 |
HIF1[math]\displaystyle{ \alpha }[/math] | 7,2 x [math]\displaystyle{ 10^{-6} }[/math] | 0,036 → Signifikant |
Vorteile | Nachteile |
---|---|
- Statistisch sehr sicher | - Sehr streng |
- Produziert viele falsch negative Ergebnisse |
Lösung 2: Benjamini-Hochberg-Prozedur
- Eine Alternative zu Bonferroni, die nicht so streng ist.
- Es wird ein gewisser Prozentsatz bestimmt, der auch falsch akzeptiert wird.
- Q als Bezeichnung für die False Discovery Rate (FDR).
- Sortiere alle p-Werte aufsteigend.
- Weise jedem p-Wert einen Rang 'i' zu.
- Berechne für jeden p-Wert den Benjamini-Hochberg kritischen Wert.
- Vergleiche original p-Wert mit kritischem BH und finde den größten p-Wert ([math]\displaystyle{ p_k }[/math]), der kleiner, als der der kritische BH ist.
- Lehne alle Nullhypothesen [math]\displaystyle{ H_t }[/math] für t= 1 bis k ab.
Benjamini-Hochberg kritischer Wert (BH) = [math]\displaystyle{ \frac{i}{n} \cdot Q }[/math]
Parameter:
n = Anzahl der Tests
i = Rang
Q = False Discovery Rate
Beispiel:
Gen | p-Wert | Rang 'i' | BH | p < BH | Signifikant für Q = 5 % |
---|---|---|---|---|---|
HIF1[math]\displaystyle{ \alpha }[/math] | 7,2 x [math]\displaystyle{ 10^{-6} }[/math] | 1 | 1 x [math]\displaystyle{ 10^{-5} }[/math] | wahr | ja |
MDH | 2,5 x [math]\displaystyle{ 10^{-5} }[/math] | 2 | 2 x [math]\displaystyle{ 10^{-5} }[/math] | falsch | ja |
HK | 2,8 x [math]\displaystyle{ 10^{-5} }[/math] | 3 | 3 x [math]\displaystyle{ 10^{-5} }[/math] | wahr | → ja |
LDH | 0,0043 | 4 | 4 x [math]\displaystyle{ 10^{-5} }[/math] | falsch | nein |
PDH | 0,02 | 5 | 5 x [math]\displaystyle{ 10^{-5} }[/math] | falsch | nein |
IDH | 0,129 | 6 | 6 x [math]\displaystyle{ 10^{-5} }[/math] | falsch | nein |
...4994 weitere Gene | ... | ... | ... | ... | ... |