Bioinformatik Wiki - User contributions [en]

9.Biomarker

2019-08-18T23:20:14Z

Patrick Melichar:

Diese Übung war zum 27.06.2019 abzugeben.

== Aufgabe 1: Definitionen ==

ROC: Abkürzung für receiver operating characteristic. Dies ist eine Methode mit der man Analysemethoden wie z.B. Diagnosealgorithmen optimieren und bewerten kann. Dafür bestimmt man die falschpositiven und falschnegativen Ergebnisse der Analysemethode und bestimmt damit die Sensitivität und Spezifität der Methode. Anschließend wägt man diese gegeneinander ab.

AUC: Abkürzung für Area under Curve. Beschreibt die Fläche unter der Kurve die man erhält wenn man Sensitivität gegen 1-Spezifität aufträgt. Der AUC-Wert liegt dabei zwischen 1 und 0. Ein Wert nahe 1 bedeutet dabei dass die Analysemethode wenig falschpositive und falschnegative Werte generiert. Ein Wert nahe 0 bedeutet dass die Analysemethode fast ausschließlich falschpositive und falschnegative Werte generiert. Dies bedeutet, dass der Algothitmus trotzdem funktioniert, man ihn jedoch "umdrehen" muss. Werte um 0,5 herum sind daher die schlechtesten Werte, da diese bedeuten dass die Methode qualitativ so gut sind wie per Zufall zu diagnositizieren.

Spezifität: <math> \frac{True negatives}{False positives+True negatives}</math>. Rate mit denen die Analysemethode Negativproben korrekt erkennt. Idealerweise geht der Werte gegen 1.

Sensitivität: <math> \frac{True positives}{False negatives+True positives}</math>. Rate mit denen die Analysemethode Positivproben korrekt erkennt. Idealerweise geht der Werte gegen 1.

logit-Funktion: eine logistische Funktion die die Analysemethoden verwenden um mit
Expressionsleveln von Biomarkern einen Wert zwischen 0 und 1 zu berechnen, den man
dann verwenden kann um abzuschätzen ob ein positiv oder ein negativ vorliegt.
<math>logit(P) = log \frac{P_{X}}{1-P_{X}} = \beta_{1} * TPM_{GenX} + \beta_{0} </math>

Threshhold: Cutoff-Wert in der logit-Funktion. Dort trennt der Analysealgrithmus die logit
funktion, alles auf einer Seite wird als positiv bewertet und alles auf der anderen Seite als
negativ. Was was ist hängt davon ab bei kranken Menschen dieser Biomarker hoch oder
runtereguliert ist.

== Aufgabe 2: Biomarker ==

a. Was ist ein Biomarker und wofür kann er verwendet werden?

Biomarker sind messbare biologische Parameter die eine gewisse Aussagekraft für Diagnose und Prognose haben. Ein gutes Beispiel für einen Biomarker ist zum Beispiel das Expressionsniveau eines Gens. Mit der Analyse von Biomarkern kann man bei der Diagnose von Krankheiten bei Menschen helfen.

b. Beschreiben Sie, wie Biomarker bestimmt werden können.

Einfache Biomarker wie Körpertemperatur und Blutdruck kann man mit einfachen diagnostischen Methoden bestimmen. Genexpressionsbiomarker kann man mit einer RNA-Sequenzierung einer Zellprobe durchführen. Die Werte kann man anschließend mit Analysemethoden aufbereiten um mit mehreren Biomarkern eine zuverlässigere Vorraussage zu treffen.

c. Warum ist ein einzelner Biomarker meistens nicht genug und was ist der Vorteil einer
Biomarker-Signatur?

Ein Biomarker reicht nicht da die Genexpression meist bei kranken Patienten bei einer
bestimmten Krankheit nur im Durchschnitt herunter oder hoch reguliert ist. Die einzelnen
Patienten weisen meist keine veränderte Genexpression bei jedem der Biomarker für ihre
Krankheit auf, sondern nur bei einigen. Auch umgekehrt kann die Genexpression eines Gens
bei gesunden Menschen sich ändern ohne dass dies eine Krankheit als Ursprung hat.
Deshalb sollte man mehrere Biomarker verwenden um die Spezifität und Sensitivität zu
erhöhen.

== Aufgabe 3 ==

Aus den ermittelten Metabolitleveln einer imaginären Studie wurde ein logistisches
Regressionsmodell entworfen. Dieses Modell soll in der Lage sein, an Hand von diesen
Metabolitleveln eine Vorhersage über den Gesundheitszustand von Patienten zu machen. Bei
dem Aufstellen des Modells wurde eine 0 als krank und eine 1 als gesund definiert. Folgende
Ausgaben aus diesem Modell wurden enthalten:
<style type="text/css">
table.tableizer-table {
font-size: 12px;
border: 1px solid #CCC;
font-family: Arial, Helvetica, sans-serif;
}
.tableizer-table td {
padding: 4px;
margin: 3px;
border: 1px solid #CCC;
}
.tableizer-table th {
background-color: #104E8B;
color: #FFF;
font-weight: bold;
}
</style>
<table class="tableizer-table">
<tr class="tableizer-firstrow"><th>Ausgabe des Modells</th><th>Wirklicher Gesundheitsstatus der Patienten</th></tr>
<tr><td>0,84</td><td>Gesund</td></tr>
<tr><td>0,75</td><td>Gesund</td></tr>
<tr><td>0,63</td><td>Gesund</td></tr>
<tr><td>0,49</td><td>Gesund</td></tr>
<tr><td>0,9</td><td>Gesund</td></tr>
<tr><td>0,25</td><td>Gesund</td></tr>
<tr><td>0,57</td><td>Krank</td></tr>
<tr><td>0,43</td><td>Krank</td></tr>
<tr><td>1</td><td>Krank</td></tr>
<tr><td>0,28</td><td>Krank</td></tr>
<tr><td>0,77</td><td>Krank</td></tr>
<tr><td>0,16</td><td>Krank</td></tr>
</table>

Bitte bearbeiten Sie nun folgende Fragestellungen:

a) Was sind FPR, TPR, TNR und FNR? Erklären Sie kurz!

FPR: false Positive Rate: Rate an Patienten die gesund sind aber vom Modell als krank
erachtet werden.

TPR: true positive Rate: Rate an Patienten die krank sind und vom Modell als krank erachtet
werden.
TNR: true negative Rate: Rate an Patienten die gesund sind und vom Modell als gesund
erachtet werden.

FNR: false Negative Rate: Rate an Patienten die krank sind aber vom Modell als gesund
erachtet werden.

b) Berechnen Sie für die 6 Thresholds 0; 0,2; 0,4; 0,6; 0,8; 1 die Spezifität und die
Sensitivität des Modells.

<table class="tableizer-table">
<tr class="tableizer-firstrow"><th>Ausgabe vom Modell</th><th>Patient</th><th>0</th><th>0,2</th><th>0,4</th><th>0,6</th><th>0,8</th><th>1</th></tr>
<tr><td> </td><td>ist...</td><td> </td><td> </td><td> </td><td> </td><td> </td><td> </td></tr>
<tr><td>0,84</td><td>gesund</td><td>TN</td><td>TN</td><td>TN</td><td>TN</td><td>TN</td><td>FP</td></tr>
<tr><td>0,75</td><td>gesund</td><td>TN</td><td>TN</td><td>TN</td><td>TN</td><td>FP</td><td>FP</td></tr>
<tr><td>0,63</td><td>gesund</td><td>TN</td><td>TN</td><td>TN</td><td>TN</td><td>FP</td><td>FP</td></tr>
<tr><td>0,49</td><td>gesund</td><td>TN</td><td>TN</td><td>TN</td><td>FP</td><td>FP</td><td>FP</td></tr>
<tr><td>0,9</td><td>gesund</td><td>TN</td><td>TN</td><td>TN</td><td>TN</td><td>TN</td><td>FP</td></tr>
<tr><td>0,25</td><td>gesund</td><td>TN</td><td>TN</td><td>FP</td><td>FP</td><td>FP</td><td>FP</td></tr>
<tr><td>0,57</td><td>krank</td><td>FN</td><td>FN</td><td>FN</td><td>TP</td><td>TP</td><td>TP</td></tr>
<tr><td>0,43</td><td>krank</td><td>FN</td><td>FN</td><td>FN</td><td>TP</td><td>TP</td><td>TP</td></tr>
<tr><td>0,001</td><td>krank</td><td>FN</td><td>TP</td><td>TP</td><td>TP</td><td>TP</td><td>TP</td></tr>
<tr><td>0,28</td><td>krank</td><td>FN</td><td>FN</td><td>TP</td><td>TP</td><td>TP</td><td>TP</td></tr>
<tr><td>0,77</td><td>krank</td><td>FN</td><td>FN</td><td>FN</td><td>FN</td><td>TP</td><td>TP</td></tr>
<tr><td>0,16</td><td>krank</td><td>FN</td><td>TP</td><td>TP</td><td>TP</td><td>TP</td><td>TP</td></tr>
</table>

TN: True Negative; FN: False Negative; TP: True Positive; FP: False Positive

<table class="tableizer-table">
<tr class="tableizer-firstrow"><th>Threshhold</th><th>0</th><th>0,2</th><th>0,4</th><th>0,6</th><th>0,8</th><th>1</th><th> </th></tr>
<tr><td>T P R</td><td>0</td><td>2</td><td>3</td><td>5</td><td>6</td><td>6</td><td> </td></tr>
<tr><td>F P R</td><td>0</td><td>0</td><td>1</td><td>2</td><td>4</td><td>6</td><td> </td></tr>
<tr><td>T N R</td><td>6</td><td>6</td><td>5</td><td>4</td><td>2</td><td>0</td><td> </td></tr>
<tr><td>F N R</td><td>6</td><td>4</td><td>3</td><td>1</td><td>0</td><td>0</td><td> </td></tr>
<tr><td>Sensitivität</td><td>0</td><td>0,33333333</td><td>0,5</td><td>0,83333333</td><td>1</td><td>1</td><td> </td></tr>
<tr><td>Spezifität</td><td>1</td><td>1</td><td>0.83333333</td><td>0.66666667</td><td>0.33333333</td><td>0</td><td></td></tr>
</table>

Wie Spezifität und Sensitivität berechnet wird, ist in Aufgabe 1 beschrieben

c) Welcher dieser Thresholds ist für dieses Modell der Beste? Begründen Sie!

Die passende Threshhold hängt davon ab worum es sich bei der Krankheit handelt. Je
schwerwiegender es ist, je einfacher die Diagnose nach einem Treffer mit dem Modell, desto
eher kann man eine geringe Spezifität verkraften. Hier in diesem Modell könnte man zum Beispiel generell
erstmal 0.6 als besten Threshold nehmen. Wenn die Krankheit die hier diagnostiziert wird
eine unbehandelt tödliche ist, die man nach der Analyse kostengünstig mit einem Bluttest
oder so nachweisen lässt, dann würde ich eher zu 0.8 tendieren da, da dann eine geringe
Spezifität für eine möglichst hohe Sensitivität in Kauf genommen werden kann

9.Biomarker

2019-08-18T22:33:19Z

Patrick Melichar: /* Aufgabe 2: Biomarker */

Patrick Melichar: /* Biologisches Problem */

Datenbanken

2019-05-08T16:19:36Z

Patrick Melichar: Created page with "Datenbanken sind Systeme in denen Daten verwaltet und dauerhaft gespeichert werden. Im Zuge der Vorlesung wird zwischen primären und sekundären Datenbanken unterschieden: p..."

Datenbanken sind Systeme in denen Daten verwaltet und dauerhaft gespeichert werden. Im Zuge der Vorlesung wird zwischen primären und sekundären Datenbanken unterschieden:

primäre Datenbanken enthalten Genom oder RNA-Sequenzen, als Beispiel wurden hierfür [https://www.ebi.ac.uk/arrayexpress/ EBI ArrayExpress] und [https://www.ncbi.nlm.nih.gov/geo/ NCBI GEO] angeführt.

sekundäre Datenbanken enthalten abgeleitete und verlinkten Daten, also gefilterte Datensätze, vergleichende oder vorhergesagt Daten. Ein Beispiel hierfür ist [https://www.uniprot.org/ UniProt] oder [https://www.ncbi.nlm.nih.gov/refseq/ NCBI RefSeq].

1 Datenbanken

2019-05-08T16:09:30Z

Patrick Melichar: /* Vergleich RNAseq - Microarrays */

Auf dieser Seite sind die Themen zusammengeführt, die in Vorlesung 1 am 04.04.2019 behandelt wurden.

== [[Biologisches Problem|Biologisches Problem]] ==

Das Biologische Problem wurde hierbei am Beispiel des [[Gen|Gens]] NAT8L, welches im Krebsmetabolismus eine Rolle spielt, bearbeitet.

== [[Microarrays]] ==

Die Methode der Microarrays wurde als Möglichkeit vorgestellt [[Transkriptom|Transkriptome]] zu bestimmen.

== [[RNAseq]] ==

Die RNAseq wurde als weitere Methode zur Transkriptomsbestimmung vorgestellt.

== [[Übung 1|Vergleich RNAseq - Microarrays]] ==

Vor- und Nachteile von Microarrays und RNAseq wurden gegeneinander abgewogen um die Methoden besser kennenzulernen.

== [[Datenbanken]] ==

Verschiedene Datenbanken wurden als Ressourcen vorgestellt, welche zum Vergleich und zur Vorhersage von Daten verwendet werden können.

RNAseq

2019-05-08T16:08:12Z

Patrick Melichar: Created page with "RNAseq ist eine Methode zur Analyse von Transkriptomen. Hierbei wird die Sequenz aller in der Probe vorhandenen mRNA Moleküle ermittelt. == Durchführung == Nach der Isolie..."

RNAseq ist eine Methode zur Analyse von Transkriptomen. Hierbei wird die Sequenz aller in der Probe vorhandenen mRNA Moleküle ermittelt.

== Durchführung ==

Nach der Isolierung der RNA aus der Probe muss die RNA fragmentiert werden und mit dem Enzym reverser Transkriptase in cDNA übersetzt werden. Dies liegt daran, dass RNA von sich aus weitaus instabiler ist und RNasen in vielen Umgegungen natürlich vorkommen und die RNA abbauen können.

Die fragmentierte cDNA wird anschließend mit Next-Generation-Sequencing Methoden (z.B. [[Illumina]]) sequenziert. Die Fragmentsequenzen (reads) müssen anschließend mit bioinformatische Methoden wieder zusammengefügt werden ([[Assembly]]) um Aufschluss auf das Transkriptom zu erhalten.

== Vorteile der RNAseq ==

Vorteilhaft an der RNA-seq gegenüber [[Microarrays|Microarray]] ist, dass die Auflösung auf die Base genau ist. Da man die genaue Sequenz besitzt kann man deshalb einfach zwischen verschieden Mutanten und Splicevarianten unterscheiden. Außerdem besitzt diese Methode viel weniger Hintergrundrauschen und hat keine Messobergrenze, das heisst auch besonders hohe Expressionslevel können noch akkurat erfasst werden. Außerdem ist die benötigte RNA-Menge weitaus weniger im Vergleich zu Microarrays.

2019-05-06T12:03:29Z

Patrick Melichar: Created page with "Microarrays ist eine molekularbiologische Methode, die verwendet wird um Nachweise in biologischen Proben durchzuführen. In Zuge dieser Vorlesung wird unter Microarrays, ledi..."

Microarrays ist eine molekularbiologische Methode, die verwendet wird um Nachweise in biologischen Proben durchzuführen. In Zuge dieser Vorlesung wird unter Microarrays, lediglich die DNA-Chip Microarray-Methode verstanden, bei der DNA-Sequenzen nachgewiesen werden

[[Cdnaarray.jpg|thumb|Ausschnitt aus einem cDNA-Microarraychip]]

== Funktionsweise ==

Die Microarraytechnologie nutzt Halbleiter um kurze DNA-Sonden an einem Ende zu binden. Dabei werden unterschiedliche Sequenzen bekannter Gene an unterschiedlichen Punkten auf dem Chip gebündelt gebunden, sodass verschiedene Spots mit gleichen Sequenzen entstehen (siehe Abbildung 1). Die zu analysierende mRNA-Probe muss für die Methode in cDNA umgeschrieben werden, wobei eine der Basen fluoreszent markiert ist. Anschließend wird die cDNA auf dem DNA-Chip aufgetragen, wobei ähnliche Sequenzen hybridisieren und damit die cDNA auf dem Chip in Clustern mit ähnlichen Sequenzen anheften. Nach der Fixierung werden ungebundene cDNA-Stränge heruntergewaschen. Anschließend wird die Fluorszenz der Spots gemessen, welche gleichzusetzen mit der Menge gebundener cDNA ist und somit mit der Menge des exprimierten Gens die der Sondensequenz entspricht.

== Nachteile, die zu beachten sind ==

Die Microarraytechnologie tritt heutzutage etwas in den Hintergrund, da die Methode einigen Einschränkungen unterliegt. Zum einen löst das Microarray die Sequenz nicht auf die Einzelbase auf, weshalb Mutanten und Splicevarianten oftmals nicht bestimmt werden können. Dies liegt daran, dass auch Sequenzen hybridisieren, die nicht 100% übereinstimmen. Außerdem beruht die Methode auf optischer Messung, was bedeutet, dass ein gewisses Maß an Hintergrundrauschen unvermeidbar ist und eine Messuntergrenze besteht. Somit kann es vorkommen, dass geringe Mengen an bestimmten Sequenzen nicht nachgewiesen werden können. Diese Methode besitzt zudem eine Messobergrenze, denn wenn alle Sonden in einem Spot hybridisiert haben, kann weitere komplementäre cDNA nicht binden und verfällt wenn sie heruntergewaschen wird.