9.Biomarker: Difference between revisions

From Bioinformatik Wiki
No edit summary
No edit summary
Line 2: Line 2:
== Aufgabe 1: Definitionen ==
== Aufgabe 1: Definitionen ==


'''ROC''': Abkürzung für '''r'''eceiver '''o'''perating '''c'''haracteristic. Dies ist eine Methode mit der man Analysemethoden wie z.B. Diagnosealgorithmen optimieren und bewerten kann. Dafür bestimmt man die falschpositiven und falschnegativen Ergebnisse der Analysemethode und bestimmt damit die Sensitivität und Spezifität der Methode. Anschließend wägt man diese gegeneinander ab. Dies geschieht mittels der Grenzwertoptimierungskurve (ROC- Kurve).
'''ROC''': Abkürzung für '''R'''eceiver '''O'''perating '''C'''haracteristic. Dies ist eine Methode mit der man Analysemethoden wie z.B. Diagnosealgorithmen optimieren und bewerten kann. Dafür bestimmt man die falschpositiven und falschnegativen Ergebnisse der Analysemethode und bestimmt damit die Sensitivität und Spezifität der Methode. Anschließend wägt man diese gegeneinander ab. Dies geschieht mittels der Grenzwertoptimierungskurve (ROC- Kurve).


'''AUC''': Abkürzung für '''A'''rea '''u'''nder '''C'''urve. Beschreibt die Fläche unter der Kurve die man erhält wenn man Sensitivität gegen 1-Spezifität aufträgt. Der AUC-Wert liegt dabei zwischen 1 und 0. Ein Wert nahe 1 bedeutet dabei dass die Analysemethode wenig falschpositive und falschnegative Werte generiert. Ein Wert nahe 0 bedeutet dass die Analysemethode fast ausschließlich falschpositive und falschnegative Werte generiert. Dies bedeutet, dass der Algothitmus trotzdem funktioniert, man ihn jedoch "umdrehen" muss. Werte um 0,5 herum sind daher die schlechtesten Werte, da diese bedeuten dass die Methode qualitativ so gut sind wie per Zufall zu diagnositizieren.
'''AUC''': Abkürzung für '''A'''rea '''u'''nder '''C'''urve. Beschreibt die Fläche unter der Kurve die man erhält wenn man Sensitivität gegen 1-Spezifität aufträgt. Der AUC-Wert liegt dabei zwischen 1 und 0. Ein Wert nahe 1 bedeutet dabei dass die Analysemethode wenig falschpositive und falschnegative Werte generiert. Ein Wert nahe 0 bedeutet dass die Analysemethode fast ausschließlich falschpositive und falschnegative Werte generiert. Dies bedeutet, dass der Algothitmus trotzdem funktioniert, man ihn jedoch "umdrehen" muss. Werte um 0,5 herum sind daher die schlechtesten Werte, da diese bedeuten dass die Methode qualitativ so gut sind wie per Zufall zu diagnositizieren.

Revision as of 13:12, 4 October 2020

Aufgabe 1: Definitionen

ROC: Abkürzung für Receiver Operating Characteristic. Dies ist eine Methode mit der man Analysemethoden wie z.B. Diagnosealgorithmen optimieren und bewerten kann. Dafür bestimmt man die falschpositiven und falschnegativen Ergebnisse der Analysemethode und bestimmt damit die Sensitivität und Spezifität der Methode. Anschließend wägt man diese gegeneinander ab. Dies geschieht mittels der Grenzwertoptimierungskurve (ROC- Kurve).

AUC: Abkürzung für Area under Curve. Beschreibt die Fläche unter der Kurve die man erhält wenn man Sensitivität gegen 1-Spezifität aufträgt. Der AUC-Wert liegt dabei zwischen 1 und 0. Ein Wert nahe 1 bedeutet dabei dass die Analysemethode wenig falschpositive und falschnegative Werte generiert. Ein Wert nahe 0 bedeutet dass die Analysemethode fast ausschließlich falschpositive und falschnegative Werte generiert. Dies bedeutet, dass der Algothitmus trotzdem funktioniert, man ihn jedoch "umdrehen" muss. Werte um 0,5 herum sind daher die schlechtesten Werte, da diese bedeuten dass die Methode qualitativ so gut sind wie per Zufall zu diagnositizieren.

Spezifität: [math]\displaystyle{ \frac{True negatives}{False positives+True negatives} }[/math].

Rate mit denen die Analysemethode Negativproben korrekt erkennt. Idealerweise geht der Werte gegen 1.


Sensitivität: [math]\displaystyle{ \frac{True positives}{False negatives+True positives} }[/math].

Rate mit denen die Analysemethode Positivproben korrekt erkennt. Idealerweise geht der Werte gegen 1.

logit-Funktion: eine logistische Funktion die die Analysemethoden verwenden um mit Expressionsleveln von Biomarkern einen Wert zwischen 0 und 1 zu berechnen, den man dann verwenden kann um abzuschätzen ob ein positiv oder ein negativ vorliegt. [math]\displaystyle{ logit(P) = log \frac{P_{X}}{1-P_{X}} = \beta_{1} * TPM_{GenX} + \beta_{0} }[/math]

Threshhold: Cutoff-Wert in der logit-Funktion. Dort trennt der Analysealgrithmus die logit funktion, alles auf einer Seite wird als positiv bewertet und alles auf der anderen Seite als negativ. Was was ist hängt davon ab bei kranken Menschen dieser Biomarker hoch oder runtereguliert ist.

Aufgabe 2: Biomarker

a. Was ist ein Biomarker und wofür kann er verwendet werden?

Biomarker sind messbare biologische Parameter die eine gewisse Aussagekraft für Diagnose und Prognose haben. Ein gutes Beispiel für einen Biomarker ist zum Beispiel das Expressionsniveau eines Gens. Mit der Analyse von Biomarkern kann man bei der Diagnose von Krankheiten bei Menschen helfen.

b. Beschreiben Sie, wie Biomarker bestimmt werden können.

Einfache Biomarker wie Körpertemperatur und Blutdruck kann man mit einfachen diagnostischen Methoden bestimmen. Genexpressionsbiomarker kann man mit einer RNA-Sequenzierung einer Zellprobe durchführen. Die Werte kann man anschließend mit Analysemethoden aufbereiten um mit mehreren Biomarkern eine zuverlässigere Vorraussage zu treffen.

c. Warum ist ein einzelner Biomarker meistens nicht genug und was ist der Vorteil einer Biomarker-Signatur?

Ein Biomarker reicht nicht da die Genexpression meist bei kranken Patienten bei einer bestimmten Krankheit nur im Durchschnitt herunter oder hoch reguliert ist. Die einzelnen Patienten weisen meist keine veränderte Genexpression bei jedem der Biomarker für ihre Krankheit auf, sondern nur bei einigen. Auch umgekehrt kann die Genexpression eines Gens bei gesunden Menschen sich ändern ohne dass dies eine Krankheit als Ursprung hat. Deshalb sollte man mehrere Biomarker verwenden um die Spezifität und Sensitivität zu erhöhen.

Aufgabe 3

Aus den ermittelten Metabolitleveln einer imaginären Studie wurde ein logistisches Regressionsmodell entworfen. Dieses Modell soll in der Lage sein, an Hand von diesen Metabolitleveln eine Vorhersage über den Gesundheitszustand von Patienten zu machen. Bei dem Aufstellen des Modells wurde eine 0 als krank und eine 1 als gesund definiert. Folgende Ausgaben aus diesem Modell wurden enthalten: <style type="text/css"> table.tableizer-table { font-size: 12px; border: 1px solid #CCC; font-family: Arial, Helvetica, sans-serif; } .tableizer-table td { padding: 4px; margin: 3px; border: 1px solid #CCC; } .tableizer-table th { background-color: #104E8B; color: #FFF; font-weight: bold; } </style>

Ausgabe des ModellsWirklicher Gesundheitsstatus der Patienten
0,84Gesund
0,75Gesund
0,63Gesund
0,49Gesund
0,9Gesund
0,25Gesund
0,57Krank
0,43Krank
1Krank
0,28Krank
0,77Krank
0,16Krank

Bitte bearbeiten Sie nun folgende Fragestellungen:

a) Was sind FPR, TPR, TNR und FNR? Erklären Sie kurz!

FPR: false Positive Rate: Rate an Patienten die gesund sind aber vom Modell als krank erachtet werden.

TPR: true positive Rate: Rate an Patienten die krank sind und vom Modell als krank erachtet werden. TNR: true negative Rate: Rate an Patienten die gesund sind und vom Modell als gesund erachtet werden.

FNR: false Negative Rate: Rate an Patienten die krank sind aber vom Modell als gesund erachtet werden.

b) Berechnen Sie für die 6 Thresholds 0; 0,2; 0,4; 0,6; 0,8; 1 die Spezifität und die Sensitivität des Modells.


Ausgabe vom ModellPatient00,20,40,60,81
 ist...      
0,84gesundTNTNTNTNTNFP
0,75gesundTNTNTNTNFPFP
0,63gesundTNTNTNTNFPFP
0,49gesundTNTNTNFPFPFP
0,9gesundTNTNTNTNTNFP
0,25gesundTNTNFPFPFPFP
0,57krankFNFNFNTPTPTP
0,43krankFNFNFNTPTPTP
0,001krankFNTPTPTPTPTP
0,28krankFNFNTPTPTPTP
0,77krankFNFNFNFNTPTP
0,16krankFNTPTPTPTPTP

TN: True Negative; FN: False Negative; TP: True Positive; FP: False Positive

Threshhold00,20,40,60,81 
T P R023566 
F P R001246 
T N R665420 
F N R643100 
Sensitivität00,333333330,50,8333333311 
Spezifität110.833333330.666666670.333333330

Wie Spezifität und Sensitivität berechnet wird, ist in Aufgabe 1 beschrieben

c) Welcher dieser Thresholds ist für dieses Modell der Beste? Begründen Sie!

Die passende Threshhold hängt davon ab worum es sich bei der Krankheit handelt. Je schwerwiegender es ist, je einfacher die Diagnose nach einem Treffer mit dem Modell, desto eher kann man eine geringe Spezifität verkraften. Hier in diesem Modell könnte man zum Beispiel generell erstmal 0.6 als besten Threshold nehmen. Wenn die Krankheit die hier diagnostiziert wird eine unbehandelt tödliche ist, die man nach der Analyse kostengünstig mit einem Bluttest oder so nachweisen lässt, dann würde ich eher zu 0.8 tendieren da, da dann eine geringe Spezifität für eine möglichst hohe Sensitivität in Kauf genommen werden kann