7 Multiples Testen

From Bioinformatik Wiki
(Redirected from 7Multiples Testen)

Multiples Testen

thumb


In der Tabelle sind die Werte für 4 Gene dargestellt. Insgesamt wurden 5000 Gene untersucht.

  • K1-3 stellen die Kontrollen dar.
  • T1-3 die getesteten mit dem NAT8L knock-out.
  • Der fold change stellt das Verhältnis von knock-out und Kontrolle dar → Hoch oder runter regulierte Gene.
  • Die Ergebnisse sind nicht gut vergleichbar, da sie teilweise eine große Streuung zeigen.
Gen K1 K2 K3 T1 T2 T3 [math]\displaystyle{ \overline{X} }[/math] Kontrolle [math]\displaystyle{ \overline{X} }[/math] -NAT8L fold change p-Wert pi-Wert
NAT8L 340 348 350 2 0 4 346 2 0,0058 1 x [math]\displaystyle{ 10^{-5} }[/math] 0,05
LDH 57 68 34 112 128 105 53 115 2,17 0,0043 21,5
IDH 215 110 55 158 357 415 126,7 310 2,44 0,129 645
HIF1[math]\displaystyle{ \alpha }[/math] 57 58 57 564 570 565 57,3 566,3 9,88 7,2 x [math]\displaystyle{ 10^{-6} }[/math] 0,036

t-Test

Der t-Test wird verwendet, um zu bestimmen, ob die Mittelwerte zweier Stichproben sich signifikant voneinander unterscheiden. Dafür wird die Nullhypothese H0 getestet, sie sagt aus, dass Stichprobe und Kontrolle sich nicht signifikant unterscheiden. In diesem Fall also

[math]\displaystyle{ H_0: \overline{X} Kontrolle = \overline{X}-NAT8L }[/math]

Die Gegenhypothese H1 sagt aus, dass sich die Ergebnisse signifikant unterscheiden, also

[math]\displaystyle{ H_1: \overline{X} Kontrolle \ne \overline{X}-NAT8L }[/math]

Mit Hilfe des t-Tests wird bestimmt, ob die Nullhypothese zutrifft, oder ob sie verworfen wird und die Gegenhypothese angenommen wird. Die Formel zur Berechnung der t-Werte entspricht:

[math]\displaystyle{ t = \frac{\overline{X}_{1} - \overline{X}_{2} }{s_{x} \cdot \surd \frac{1}{n_{1}} + \frac{1}{n_{2}}} }[/math]

Parameter:

  • [math]\displaystyle{ \overline{X}_1 }[/math] = Mittelwert Stichprobe 1
  • [math]\displaystyle{ \overline{X}_2 }[/math] = Mittelwert Stichprobe 2
  • [math]\displaystyle{ s_x }[/math] = Standardabweichung
  • n = Größe der Stichprobe

Nach der Berechnung der t- Werte, Standardabweichung und den Freiheitsgraden werden die t-Werte in die t-Verteilung eingesetzt. Daraus kann mit Hilfe des p-Werts beurteilt werden, ob die Nullhypotese angenommen, oder verworfen wird.

P-Wert

Das geforderte Signifikanzniveau ist P≤0,05, nur dann werden die Ergebnisse als signifikant angesehen.

Problem:
In diesem Fall wurden 5000 Genexpressionen verglichen (n=5000). Statistisch gesehen werden ca. 250 Gene durch Zufall einen p-Wert von [math]\displaystyle{ \leq }[/math] 0,05 haben. → [math]\displaystyle{ \alpha }[/math]-Fehler (Fehler 1. Art)

  • Fehler 1. Art: Die Nullhypothese wird verworfen, obwohl sie eigentlich zutrifft.

Lösung 1: Bonferroni-Korrektur

  • Für jeden p-Wert wird ein neuer p-Wert berechnet.
  • Bestimmter p-Wert wird mit Größe der Stichprobe multipliziert.

[math]\displaystyle{ P_i* = P_i \cdot n }[/math]

Parameter:

  • [math]\displaystyle{ P_i = }[/math] Bestimmter p-Wert für Gen 'i'
  • [math]\displaystyle{ P_i* = }[/math] Korrigierter P-Wert für Gen 'i'
  • n = Größe der Stichprobe
Gen [math]\displaystyle{ P_i }[/math] [math]\displaystyle{ P_i* = }[/math]
NAT8L 1,00 x [math]\displaystyle{ 10^{-5} }[/math] 0,05 → Signifikant
LDH 0,0043 21,5
IDH 0,129 645
HIF1[math]\displaystyle{ \alpha }[/math] 7,2 x [math]\displaystyle{ 10^{-6} }[/math] 0,036 → Signifikant
Vorteile Nachteile
- Statistisch sehr sicher - Sehr streng
- Produziert viele falsch negative Ergebnisse

















Lösung 2: Benjamini-Hochberg-Prozedur

  • Eine Alternative zu Bonferroni, die nicht so streng ist.
  • Es wird ein gewisser Prozentsatz bestimmt, der auch falsch akzeptiert wird.
  • Q als Bezeichnung für die False Discovery Rate (FDR).

  1. Sortiere alle p-Werte aufsteigend.
  2. Weise jedem p-Wert einen Rang 'i' zu.
  3. Berechne für jeden p-Wert den Benjamini-Hochberg kritischen Wert.
  4. Vergleiche original p-Wert mit kritischem BH und finde den größten p-Wert ([math]\displaystyle{ p_k }[/math]), der kleiner, als der der kritische BH ist.
  5. Lehne alle Nullhypothesen [math]\displaystyle{ H_t }[/math] für t= 1 bis k ab.

Benjamini-Hochberg kritischer Wert (BH) = [math]\displaystyle{ \frac{i}{n} \cdot Q }[/math]
Parameter:
n = Anzahl der Tests
i = Rang
Q = False Discovery Rate

Beispiel:

Gen p-Wert Rang 'i' BH p < BH Signifikant für Q = 5 %
HIF1[math]\displaystyle{ \alpha }[/math] 7,2 x [math]\displaystyle{ 10^{-6} }[/math] 1 1 x [math]\displaystyle{ 10^{-5} }[/math] wahr ja
MDH 2,5 x [math]\displaystyle{ 10^{-5} }[/math] 2 2 x [math]\displaystyle{ 10^{-5} }[/math] falsch ja
HK 2,8 x [math]\displaystyle{ 10^{-5} }[/math] 3 3 x [math]\displaystyle{ 10^{-5} }[/math] wahr ja
LDH 0,0043 4 4 x [math]\displaystyle{ 10^{-5} }[/math] falsch nein
PDH 0,02 5 5 x [math]\displaystyle{ 10^{-5} }[/math] falsch nein
IDH 0,129 6 6 x [math]\displaystyle{ 10^{-5} }[/math] falsch nein
...4994 weitere Gene ... ... ... ... ...