7.Hypothesentests

From Bioinformatik Wiki

Aufgabe 1

a: Was misst ein t-Test und wie wird dieser berechnet? Was bedeutet der p-Wert?

Der t-Test ist eine Methode der statistischen Analyse, bei der man testet ob ein Mittelwert einer Stichprobe von dem Erwartungswert der Grundgesamtheit abhängt. Mit Varianten des t-Tests kann man außerdem in Nullhypothesen(H0) überprüfen, ob zwei oder mehr Stichproben derselben Gesamtheit entspringen oder sich dafür zu signifikant unterscheiden. Der p-Wert ist eine Wahrscheinlichkeit und gibt hierbei das minimale Signifikanzniveau an, bei dem H0 nicht mehr gilt. Der p-Wert ist außerdem die Wahrscheinlichkeit mit der Stichproben zufällig die H0-Hypothese ablehnen.

Für einen t-Test müssen zunächst Mittelwert, Standardabweichung und Freiheitsgrade für alle Stichproben berechnet werden.

Mittelwert: Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle \bar{x}_{\mathrm{arithm}} = \frac{1}{n} \sum_{i=1}^n{x_i} = \frac{x_1 + x_2 + \dotsb + x_n}{n}}

Standardabweichung: Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle \tilde s := +\sqrt{\frac{1}{n} \sum \limits_{i=1}^n\left(x_i-\overline x\right)^2} }

Freiheitsgrade: df = n-1

In den Formeln ist Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle \bar{x} } der Mittelwert, Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle x_1 } etc. die einzelnen Werte der Stichprobe und n die Anzahl der Werte einer Stichprobe.

Nachdem man diese Werte bestimmt hat, kann man mit verschiedenen Formeln (da es viele veschiedene t-Tests gibt) den t-Wert berechnen. Hier wird beispielsweise die Formel für den gepoolten Welch-t-test gezeigt:

Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle t \quad = \quad {\; \overline{x}_1 - \overline{x}_2 \; \over \sqrt{ \; {s_1^2 \over N_1} \; + \; {s_2^2 \over N_2} \quad }}\,}

Der berechnete Wert, wird dann in einer T-Tabelle nachgeschlagen und verglichen. Bevor man einen Wert heraussuchen kann muss ein Signifikanzniveau festgelegt werden, über dem H0 abgelehnt wird, z.B. 0,05. Dann kann man in der Tabelle den Referenz-t-Wert finden und wenn der berechnete t-Wert über dem Referenzwert ist, dann unterscheiden sich die Stichproben signifikant und können nicht als zwei Stichproben aus der gleichen Grundgesamtheit angesehen werden.


b: Wie unterscheiden sich Student‘s t-Test und Welch‘s t-Test?

Students t-Test sollte nur angewendet werden, wenn die Grundgesamtheiten die gleiche Varianz aufweisen. Wenn dies der Fall ist, sollte der Welch-Test verwendet werden.

Student´s t- test    -      Gleiche Varianz der Stichproben
Welch´s t- test      -      Ungleiche Varianz der Stichproben

Aufgabe 2

a: Welches statistische Problem tritt auf, wenn man eine statistische Signifikanz zwischen zweiBedingungen für viele Gene testet?

  • Je mehr Gene getestet werden, desto größer ist die Chance einen falsch- positiven zu detektieren
  • Der p-Wert muss angeglichen werden um aussagekräftige Ergebnisse zu bekommen (Bsp. BonferroniKorrektur oder Benjamini-Hochberg Prozedur)
  • Beispiel: Bei einem Signifikanzniveau von 5% und 1000 Proben, gibt es rein statistisch die Wahrscheinlichkeit, das 50 Proben fälschlicherweise als signifikant gelten.


b: Was sind die Unterschiede zwischen der Prozedur nach Benjamini-Hochberg und der Bonferroni-Korrektur?

Bonferroni

  • Statistisch sehr sicher, aber sehr streng
  • Einfach zu berechnen/ programmieren
  • Produziert viele falsch-negative Werte (FN-false negative)

Benjamini-Hochberg

  • Weniger streng, höhere Chance auf verwertbare Ergebnisse
  • Komplizierter zu programmieren
  • Je kleiner FDR (false discovery rate) gewählt wird, desto näher kommt das Ergebnis an die korrigierten P-Werte von Bonferroni heran


c: Wie funktioniert die Bonferroni-Korrektur?

Zuerst berechnet man den korrigierten p-Wert mit folgender Formel:

Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle p_\text{i*}=p_\text{i}*n}

wobei Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle p_\text{i*}} der korrigierte Wert ist,

Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle p_\text{i}} der p-Wert für Merkmal i und n die Anzahl der Merkmale.

Danach vergleicht man die korrigierten Werte mit dem Signifikanzniveau. Wenn der Wert kleiner ist als das Niveau, dann ist der Wert signifikant.


d: Wie funktioniert die Benjamini-Hochberg Prozedur?

Die Prozedur folgt den folgenden Schritten:

- Sortiere die Merkmale nach den zugehörigen p-Werten aufsteigend.

- Gib jedem p-Wert einen Rang zu (i)

- Berechne für jeden p-Wert den BH kritischen Wert mit folgender Formel:

BH = Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle \frac{i}{n}} * Q wobei i der Rang ist, n die Anzahl der Merkmale (Stichprobenanzahl) und Q die False Discovery Rate

- Vergleiche jeden p-Wert mit seinem kritischen BH-Wert.

- der größte p-Wert der kleiner als der kritische BH Wert ist, ist der Wert ab dem alle p-Werte aufwärts H0 ablehnen, somit signifikant sind.


e: Bei der Analyse von Metaboliten im Blut von Patienten mit Niereninsuffizienz ist folgende Tabelle entstanden. Zeige, welche der nachfolgenden p-Werte der Metabolite nach Benjamini-Hochberg als Signifikant angesehen werden können (α = 0,05). Zeige, welche Metabolite nach Bonferroni als signifikant angesehen werden können. Beschreibe die Unterschiede!

Bonferroni-Methode:

Metabolit P P*
C-mannosyltryptophan 1.10E-03 0.0297
pseudouridine 3.70E-03 0.0999
O-sulfo-L-tyrosine 1.40E-02 0.378
margarate (17:0) 2.80E-01 7.56
erythronate* 2.80E-02 0.756
N-acetylalanine 4.00E-02 1.08
4-androsten-3beta,17beta-diol disulfate 2* 5.30E-03 0.1431
10-nonadecenoate (19:1n9) 8.90E-01 24.03
4-acetamidobutanoate 5.30E-02 1.431
N-acetylthreonine 2.70E-01 7.29
eicosenoate (20:1n9 or 11) 4.80E-01 12.96
15-methylpalmitate (isobar with 2- methylpalmitate) 4.70E-01 12.69
N1-methyladenosine 5.50E-02 1.485
X - 12092 1.90E-01 5.13
X - 12216 1.50E-02 0.405
N-acetylornithine 4.50E-03 0.1215
N-acetylornithine 1.30E-01 3.51
dihomo-linoleate (20:2n6) 8.60E-01 23.22
1-docosahexaenoylglycerophosphocholine* 3.90E-02 1.053
kynurenine 4.60E-02 1.242
5alpha-pregnan-3beta,20alpha-diol disulfate 1.30E-02 0.351
erythritol 1.20E-01 3.24
homocitrulline 2.50E-01 6.75
bradykinin, des-arg(9) 3.20E-01 8.64
X - 04494 9.40E-02 2.538
linoleate (18:2n6) 8.20E-01 22.14
mannose 2.00E-01 5.4

mit den p-Werten hat man die p*-Werte berechnet und dann mit dem Signifikanzniveau 0.05 verglichen. Der einzig signifikante Wert ist C-mannoysltryptophan.

Benjamini-Hochberg Prozedur:

Metabolit P Rang BHKW Differenz
C-mannosyltryptophan 1.10E-03 1 0.0019 -0.0008
pseudouridine 3.70E-03 2 0.0037 0
N-acetylornithine 4.50E-03 3 0.0056 -0.0011
4-androsten-3beta,17beta-diol disulfate 2* 5.30E-03 4 0.0074 -0.0021
5alpha-pregnan-3beta,20alpha-diol disulfate 1.30E-02 5 0.0093 0.0037
O-sulfo-L-tyrosine 1.40E-02 6 0.0111 0.0029
X - 12216 1.50E-02 7 0.013 0.002
erythronate* 2.80E-02 8 0.0148 0.0132
1-docosahexaenoylglycerophosphocholine* 3.90E-02 9 0.0167 0.0223
N-acetylalanine 4.00E-02 10 0.0185 0.0215
kynurenine 4.60E-02 11 0.0204 0.0256
4-acetamidobutanoate 5.30E-02 12 0.0222 0.0308
N1-methyladenosine 5.50E-02 13 0.0241 0.0309
X - 04494 9.40E-02 14 0.0259 0.0681
erythritol 1.20E-01 15 0.0278 0.0922
N-acetylornithine 1.30E-01 16 0.0296 0.1004
X - 12092 1.90E-01 17 0.0315 0.1585
mannose 2.00E-01 18 0.0333 0.1667
homocitrulline 2.50E-01 19 0.0352 0.2148
N-acetylthreonine 2.70E-01 20 0.037 0.233
margarate (17:0) 2.80E-01 21 0.0389 0.2411
bradykinin, des-arg(9) 3.20E-01 22 0.0407 0.2793
15-methylpalmitate (isobar with 2- methylpalmitate) 4.70E-01 23 0.0426 0.4274
eicosenoate (20:1n9 or 11) 4.80E-01 24 0.0444 0.4356
linoleate (18:2n6) 8.20E-01 25 0.0463 0.7737
dihomo-linoleate (20:2n6) 8.60E-01 26 0.0481 0.8119
10-nonadecenoate (19:1n9) 8.90E-01 27 0.05 0.84

Hier ist der Cutoff bei Rang 4. Dieser Wert und alle darüber sind somit signifikant.

Unterschiede: Durch BH werden deutlich mehr Metabolite als signifikant eingestuft, der Aufwand ist jedoch größer. Bonferroni liefert eindeutige Ergebnisse (signifikante Metabolite von Bonferroni sind immer in den signifikanten Metaboliten von BH enthalten).