9 Biomarker

From Bioinformatik Wiki

Biomarker

Medizinische Biomarker

  • Ein Biomarker ist ein messbarer Parameter biologischer Prozesse, der prognostische, oder diagnostische Aussagekraft hat und somit ein Indikator für Krankheiten, oder Umwelteinflüsse ist.
  • Charakteristische biologische Merkmale, die objektiv gemessen werden können und auf einen normalen biologischen, oder krankhaften Prozess im Körper hinweisen können.
  • Es können Zellen, Gene, Genprodukte, Enzyme, oder Hormone sein.

mini Wie in der Abbildung oben dargestellt, kann über Einzelwerte keine Aussage getroffen werden, ob der Patient krank oder gesund ist.

→ deswegen bedarf es mehrerer Biomarker

Frage:
Wie kann für einen TPM-Wert vorhergesagt werden, ob es sich um 'Krebs' oder 'Gesund' handelt?

Logistische Funktion

Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle y = \beta_1 \cdot TPM_{HIF1\alpha} + \beta_0 }

Damit wird die Wahrscheinlichkeit, dass jemand z.B. Krebs bekommt durch Gegenwahrscheinlichkeit bestimmt.
Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle logit_{(P)} = log \frac{P}{1-P} }

Der Wertebereich der Logit Funktion ist ideal für lineare Regression

Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle log \frac{P(x)}{1-P(x)} = \beta_1 \cdot TPM_{HIF1\alpha} + \beta_0 }

LogFunktion.png

Biomarkersignatur

Erweiterung für mehrere Gene:

Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle P(x) = \frac{1}{e^{-((\beta)_1 \cdot x_1) + ((\beta)_2 \cdot x_1) + .... + (\beta)_n \cdot x_n) + \beta_0)}}}

Mashine learning

  • Ein Modell muss zunächst von einem System erlent werden, dann kann das System eine Aussage treffen, ob z.B. 'krank' oder 'gesund'.
  • Parameter Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle \beta_1 } und Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle \beta_0 } können nicht berechnet werden. → Müssen mit Hilfe eines Algorithmus geschätzt werden.

Maximum-Likelihood:

  • Schätzung zur Parameterbestimmung.
  • Training: Lerndaten sind bekannte Werte zur Aussage 'krank' oder 'gesund'

→ Algorithmus bestimmt einen genauen Wert für Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle \beta_1} , um krank (1) und gesund (0) zu bestimmen.
→ Danach kann mit dem Modell bestimmt werden, ob es gut oder schlecht ist.

Problem: Das System versucht einen optimalen Wert zu finden
Overfitting: Zu genaue Beschreibung des Modells.

Frage: Wie gut ist die Qualität des Modells?

Receiver Operation Characteristic (ROC)

Wird genutzt um zu prüfen, ob das Modell gut ist.
→ Wie viele falsch positive, falsch negative, aber auch richtig positive und richtig negative Aussagen trifft das Modell?

Mensch
Krebs Gesund
Modellvorhersage Krebs TP FP
Gesund FN TN

Beispiel 'Krebs' = positiv, 'geund' = negativ

  • TP: True Positive (richtig positiv) → Modell sagt 'Krebs' richtig voraus.
  • TN: True Negative (richtig negativ) → Modell sagt 'gesund' richtig voraus.
  • FP: False Positive (falsch positiv) → Modell sagt der Patient hat Krebs, obwohl er gesund ist.
  • FN: False Negative (falsch negativ) → Modell sagt 'gesund', obwohl der Patient Krebs hat.

Testen auf Sensitivität

Möglichst viele 'Kranke' sollen richtig bestimmt werden.
Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle \text{Sensitivität} = \frac{\text{TP}}{\text{TP + FN}} }

  • Bei einem perfekten Modell gibt dieses keine falsch negativen Ergebnisse aus.
  • Ausgabe 1 = Perfektes Modell, erkennt alle mit Krebs.
  • Ausgabe 0 = Schlechtes Modell, erkennt keine mit Krebs.

Testen auf Spezifität

Möglichst viele 'Gesunde' sollen richtig bestimmt werden.

Failed to parse (SVG (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle \text{Spezifität} = \frac{\text{TN}}{\text{ FP + TN}} }

  • Bei einem perfekten Modell gibt dieses keine falsch positiven Ergebnisse aus.
  • Ausgabe 1 = Perfektes Modell, erkennt alle mit gesund.
  • Ausgabe 0 = Schlechtes Modell, erkennt keine gesunden.
  • Entweder hohe Sensitivität oder hohe Spezifität. Was besser ist kommt auf die Fragestellung an.

Treshold:
Cutoff-Wert der als Grenzwert festgelegt wird nach dem beurteilt wird, ob der zu bewertende Wert 'krank', oder 'gesund' zugeordnet wird.

Beispiel zur Bestimmung des optimalen Treshold
gesund=0 und krank=1

Treshold
Zustand Ausgabe Modell 0 0,25 0,45 0,55 0,75
krank 0,5 TP TP TP FN FN
krank 0,6 TP TP TP TP FN
krank 0,2 TP FN FN FN FN
krank 0,56 TP TP TP TP FN
gesund 0,56 FP FP FP FP TN
gesund 0,1 FP TN TN TN TN
gesund 0,2 FP TN TN TN TN
gesund 0,4 FP FP TN TN TN
0 0,25 0,45 0,55 0,75
Spezifität 0 1/2 3/4 3/4 1
Sensitivität 1 3/4 3/4 1/2 0

Der beste Threshold ist 0,45

Area Under the Curve

AUC.png



  • 1 = optimal
  • 0 = auch gut, positiv und negativ müssen nur umgedreht werden
  • 0,5 = schlecht, da die Bestimmung des Systems durch Zufall erfolgt