Bioinformatik Wiki - User contributions [en]

7 Multiples Testen

2019-07-02T07:12:31Z

Vero: /* Lösung 2: Benjamini-Hochberg-Prozedur */

=Multiples Testen=
[[File:VL7.png|right|frameless|thumb]] 

In der Tabelle sind die Werte für 4 Gene dargestellt. Insgesamt wurden 5000 Gene untersucht. 
* K1-3 stellen die Kontrollen dar. 
* T1-3 die getesteten mit dem NAT8L knock-out.
* Der fold change stellt das Verhältnis von knock-out und Kontrolle dar → Hoch oder runter regulierte Gene.
* Die Ergebnisse sind nicht gut vergleichbar, da sie teilweise eine große Streuung zeigen.

{| class="wikitable" style="text-align:center"
|-
! Gen !! K1 !! K2 !! K3 !! T1 !! T2 !! T3 !! <math>\overline{X}</math> Kontrolle !! <math>\overline{X}</math> -NAT8L !! fold change !! p-Wert !! pi-Wert
|-
| NAT8L || 340 || 348 || 350 || 2 || 0 || 4 || 340 || 2 || 0,0058 || 1,00 x <math>10^{-5}</math> || 0,05
|-
| LDH || 57 || 68 || 34 || 112 || 128 || 105 || 59,7 || 115 || 1,93 || 0,0043 || 21,5
|-
| IDH || 215 || 110 || 55 || 158 || 357 || 415 || 126,7 || 310 || 2,44 || 0,129 || 645
|-
| HIF1<math>\alpha</math> || 57 || 58 || 57 || 564 || 570 || 565 || 57,3 || 566,3 || 9,88 || 7,2 x <math>10^{-6}</math> || 0,036
|-
|}
== t-Test==
Der t-Test wird verwendet, um zu bestimmen, ob die Mittelwerte zweier Stichproben sich signifikant voneinander unterscheiden. Dafür wird die Nullhypothese H0 getestet, sie sagt aus, dass Stichprobe und Kontrolle sich nicht signifikant unterscheiden. In diesem Fall also <math>H_0: \overline{X} Kontrolle = \overline{X}-NAT8L </math> 

Die Gegenhypothese H1 sagt aus, dass sich die Ergebnisse signifikant unterscheiden, also 

<math>H_1: \overline{X} Kontrolle \ne \overline{X}-NAT8L </math> 
Mit Hilfe des t-Tests wird bestimmt, ob die Nullhypothese zutrifft, oder ob sie verworfen wird und die Gegenhypothese angenommen wird. Die Formel zur Berechnung der t-Werte entspricht: 
<math> t = \frac{\overline{X}_{1} - \overline{X}_{2} }{s_{x} \cdot \surd \frac{1}{n_{1}} + \frac{1}{n_{2}}} </math> 

'''Parameter:''' 
* <math>\overline{X}_1 </math> = Mittelwert Stichprobe 1 
* <math>\overline{X}_2 </math> = Mittelwert Stichprobe 2 
* <math>s_x </math> = Standardabweichung
* n = Größe der Stichprobe 
Nach der Berechnung der t- Werte, Standardabweichung und den Freiheitsgraden werden die t-Werte in die t-Verteilung eingesetzt. Daraus kann mit Hilfe des p-Werts beurteilt werden, ob die Nullhypotese angenommen, oder verworfen wird. 
===P-Wert===
Der p-Wert

'''Problem:''' 
In diesem Fall wurden 5000 Genexpressionen verglichen (n=5000). Statistisch gesehen werden ca. 250 Gene durch Zufall einen p-Wert von <math>\leq</math> 0,05 haben. → <math>\alpha</math>-Fehler (Fehler 1. Art)
* Fehler 1. Art: Die Nullhypothese wird verworfen, obwohl sie eigentlich zutrifft.

==Lösung 1: Bonferroni-Korrektur==
* Für jeden p-Wert wird ein neuer p-Wert berechnet.
* Bestimmter p-Wert wird mit Größe der Stichprobe multipliziert.
<math>P_i* = P_i \cdot n </math> 
'''Parameter:''' 
* <math>P_i = </math> Bestimmter p-Wert für Gen 'i' 
* <math>P_i* = </math> Korrigierter P-Wert für Gen 'i' 
* n = Größe der Stichprobe
{| class="wikitable" style="float:left; margin-right:1em"
|-
! Gen !! <math>P_i </math> !! <math>P_i* =</math>
|-
| NAT8L || 1,00 x <math>10^{-5}</math> || 0,05 → Signifikant
|-
| LDH || 0,0043 || 21,5
|-
| IDH || 0,129 || 645
|-
|HIF1<math>\alpha</math> || 7,2 x <math>10^{-6}</math> || 0,036 → Signifikant
|}
{| class="wikitable" style="float:left"
! Vorteile || Nachteile
|-
| - Statistisch sehr sicher || - Statistisch sehr sicher, aber auch sehr streng
|-
| || - Produzuert viele falsch negative Ergebnisse
|-
|}
 
 
 
 
 
 
 

==Lösung 2: Benjamini-Hochberg-Prozedur==
* Eine Alternative zu Bonferroni, die nicht so streng ist. 
* Es wird ein gewisser Prozentsatz bestimmt, der auch falsch akzeptiert wird. 
* Q als Bezeichnung für die False Discovery Rate (FDR). 
 
# Sortiere alle p-Werte aufsteigend. 
# Weise jedem p-Wert einen Rang 'i' zu. 
# Berechne für jeden p-Wert den Benjamini-Hochberg kritischen Wert. 
# Vergleiche original p-Wert mit kritischem BH und finde den größten p-Wert (<math> p_k </math>), der kleiner, als der der kritische BH ist.
# Lehne alle Nullhypothesen <math> H_t</math> für t= 1 bis k ab.

Benjamini-Hochberg kritischer Wert (BH) = <math>\frac{i}{n} \cdot Q </math> 
'''Parameter:''' 
n = Anzahl der Tests 
i = Rang 
Q = False Discovery Rate 

'''Beispiel:'''

{| class="wikitable" style="text-align:center"
|-
! Gen !! p-Wert !! Rang 'i' !! BH !! p < BH !! Signifikant für Q = 5 %
|-
| HIF1<math>\alpha</math> || 7,2 x <math>10^{-6}</math> || 1 || 1 x <math>10^{-5}</math> || wahr || ja
|-
| MDH || 2,5 x <math>10^{-5}</math> || 2 || 2 x <math>10^{-5}</math> || falsch ||ja
|-
| HK || 2,8 x <math>10^{-5}</math> || 3 || 3 x <math>10^{-5}</math> || '''wahr''' || → '''ja'''
|-
| LDH || 0,0043 || 4 || 4 x <math>10^{-5}</math> || falsch || nein
|-
| PDH || 0,02 ||5 || 5 x <math>10^{-5}</math>|| falsch || nein
|-
| IDH || 0,129 || 6 || 6 x <math>10^{-5}</math> || falsch || nein
|-
| ...4994 weitere Gene || ... || ... || ... ||... || ...
|-
|}

9 Biomarker

2019-07-02T00:31:43Z

Vero:

= Biomarker =
'''Medizinische Biomarker''' 
* Ein Biomarker ist ein messbarer Parameter biologischer Prozesse, der prognostische, oder diagnostische Aussagekraft hat und somit ein Indikator für Krankheiten, oder Umwelteinflüsse ist.
* Charakteristische biologische Merkmale, die objektiv gemessen werden können und auf einen normalen biologischen, oder krankhaften Prozess im Körper hinweisen können.
* Es können Zellen, Gene, Genprodukte, Enzyme, oder Hormone sein.
[[File:VL8 1.png|mini|850px]]
Wie in der Abbildung oben dargestellt, kann über Einzelwerte keine Aussage getroffen werden, ob der Patient krank oder gesund ist. 
→ deswegen bedarf es mehrerer Biomarker 

'''Frage:''' 
Wie kann für einen TPM-Wert vorhergesagt werden, ob es sich um 'Krebs' oder 'gesund' handelt? 
==Logistische Funktion==
<math> y = \beta_1 \cdot TPM_{HIF1\alpha} + \beta_0 </math> 

<math> logit_{(P)} = log \frac{P}{1-P} </math> 
* Damit wird die Wahrscheinlichkeit, dass jemand z.B. Krebs bekommt durch Gegenwahrscheinlichkeit bestimmt. 
''' WIRD NOCH FERTIG GEMACHT'''
==Biomarkersignatur==
Erweiterung für mehrere Gene:

<math> P(x) = \frac{1}{e^{-((\beta)_1 \cdot x_1) + ((\beta)_2 \cdot x_1) + .... + (\beta)_n \cdot x_n) + \beta_0)}}</math> 
'''Mashine learning''' 
* Ein Modell muss zunächst von einem System erlent werden, dann kann das System eine Aussage treffen, ob z.B. 'krank' oder 'gesund'. 
* Parameter <math> \beta_1 </math> und <math> \beta_0 </math> können nicht berechnet werden. → Müssen mit Hilfe eines Algorithmus geschätzt werden. 

'''Maximum-Likelihood:''' 
* Schätzung zur Parameterbestimmung. 
* ''Training'': Lerndaten sind bekannte Werte zur Aussage 'krank' oder 'gesund' 
→ Algorithmus bestimmt einen genauen Wert für <math> \beta_1</math>, um krank (1) und gesund (0) zu bestimmen. 
→ Danach kann mit dem Modell bestimmt werden, ob es gut oder schlecht ist. 
*'''Problem''': System versucht einen optimalen Wert zu finden 
→ ''Overfitting'': Zu genaue Beschreibung des Modells. 
'''Frage:''' Wie gut ist die Qualität des Modells? 
==Receiver Operation Characteristic (ROC)==
Wird genutzt um zu prüfen, ob das Modell gut ist. 
→ Wie viele falsch positive, falsch negative, aber auch richtig positive und richtig negative Aussagen trifft das Modell? 
{| class="wikitable float-left" style="text-align:center"
| || ||colspan="3" style="text-align:center"| Mensch
|-
| || || '''Krebs''' || '''Gesund'''
|-
|rowspan="2"| Modellvorhersage
| '''Krebs''' ||style="background:#B9FFC5 " | TP || style="background:#FFCBCB| FP
|-
| '''Gesund''' ||style="background:#FFCBCB| FN || style="background:#B9FFC5 " | TN
|-
|}
Beispiel 'Krebs' = positiv, 'geund' = negativ
* TP: True Positive (richtig positiv) → Modell sagt 'Krebs' richtig voraus. 
* TN: True Negative (richtig negativ) → Modell sagt 'gesund' richtig voraus. 
* FP: False Positive (falsch positiv) → Modell sagt der Patient hat Krebs, obwohl er gesund ist. 
* FN: False Negative (falsch negativ) → Modell sagt 'gesund', obwohl der Patient Krebs hat. 
==Testen auf Sensitivität==
Möglichst viele 'Kranke' sollen richtig bestimmt werden. 
<math> \text{Sensitivität} = \frac{\text{TP}}{\text{TP + FN}} </math>
* Bei einem perfekten Modell gibt dieses keine falsch negativen Ergebnisse aus. 
* Ausgabe 1 = Perfektes Modell, erkennt alle mit Krebs. 
* Ausgabe 0 = Schlechtes Modell, erkennt keine mit Krebs. 

==Testen auf Spezifität==
Möglichst viele 'Gesunde' sollen richtig bestimmt werden. 
<math> \text{Spezifität} = \frac{\text{TN}}{\text{ FP + TN}} </math>
*Entweder hohe Sensitivität oder hohe Spezifität. 
* Was besser ist kommt auf die Fragestellung an. 
'''Treshold''': 
Cutoff-Wert der als Grenzwert festgelegt wird nach dem beurteilt wird, ob der zu bewertende Wert 'krank', oder 'gesund' zugeordnet wird. 
'''Beispiel zur Bestimmung des optimalen Treshold''' 

{| class="wikitable"
| || || || colspan="5" style="text-align:center"| Treshold
|-
! Zustand !! Ausgabe Modell !! 0 !! 0,25 !! 0,45 !! 0,55 !! 0,75
|-
| krank || 0,5 || style="background:#B9FFC5 " |TP || style="background:#B9FFC5 " |TP || style="background:#B9FFC5 " |TP|| style="background:#FFCBCB| FN || style="background:#FFCBCB| FN
|-
| krank || 0,6 || style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP|| style="background:#FFCBCB| FN
|-
| krank || 0,2 || style="background:#B9FFC5 " | TP || style="background:#FFCBCB| FN || style="background:#FFCBCB| FN || style="background:#FFCBCB| FN || style="background:#FFCBCB| FN
|-
| krank || 0,56 || style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP|| style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP || style="background:#FFCBCB| FN
|-
| gesund || 0,5 || style="background:#FFCBCB| FP || style="background:#FFCBCB| FP || style="background:#FFCBCB| FP || style="background:#FFCBCB| FP || style="background:#B9FFC5 " | TN
|-
| gesund || 0,1 || style="background:#FFCBCB| FP || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN
|-
| gesund || 0,2 || style="background:#FFCBCB| FP || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN
|-
| gesund || 0,4 || style="background:#FFCBCB| FP || style="background:#FFCBCB| FP || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN
|}
*Treshold 0 = hohe Sensitivität 
*Treshold 0,75 = hohe Spezifität 
==Area Under the Curve==

{| class="wikitable"
| || || colspan="5" style="text-align:center"| Treshold
|-
! !! !! 0 !! 0,25 !! 0,45 !! 0,55 !! 0,75
|-
| Sensitivitätt || <math>\frac{\text{TP}}{\text{TP + FN}} </math> || style="background:#FFAA00 | 1 || style="background:#FFFF40 | 0,75 || style="background:#B3B7FF | 0,75 || style="background:#FFCBCB| 0,5 || style="background:#B9FFC5 "| 0
|-
| Spezifität || <math>\frac{\text{TN}}{\text{ FP + TN}} </math> || style="background:#FFAA00 | 0 || style="background:#FFFF40 |0,5 || style="background:#B3B7FF | 0,75 || style="background:#FFCBCB| 1 || style="background:#B9FFC5 "| 1
|}
[[File:VL8 AUC.png|mini|500px]]

*1 = optimal 
*0 = auch gut, positiv und negativ müssen nur umgedreht werden 
*0,5 = schlecht, da die Bestimmung des Systems durch Zufall erfolgt

9 Biomarker

2019-07-02T00:31:04Z

Vero:

= Biomarker =
'''Medizinische Biomarker''' 
* Ein Biomarker ist ein messbarer Parameter biologischer Prozesse, der prognostische, oder diagnostische Aussagekraft hat und somit ein Indikator für Krankheiten, oder Umwelteinflüsse ist.
* Charakteristische biologische Merkmale, die objektiv gemessen werden können und auf einen normalen biologischen, oder krankhaften Prozess im Körper hinweisen können.
* Es können Zellen, Gene, Genprodukte, Enzyme, oder Hormone sein.
[[File:VL8 1.png|mini|850px]]
Wie in der Abbildung oben dargestellt, kann über Einzelwerte keine Aussage getroffen werden, ob der Patient krank oder gesund ist. 
→ deswegen bedarf es mehrerer Biomarker 

'''Frage:''' 
Wie kann für einen TPM-Wert vorhergesagt werden, ob es sich um 'Krebs' oder 'gesund' handelt? 
==Logistische Funktion==
<math> y = \beta_1 \cdot TPM_{HIF1\alpha} + \beta_0 </math> 

<math> logit_{(P)} = log \frac{P}{1-P} </math> 
* Damit wird die Wahrscheinlichkeit, dass jemand z.B. Krebs bekommt durch Gegenwahrscheinlichkeit bestimmt. 
==Biomarkersignatur==
Erweiterung für mehrere Gene:

<math> P(x) = \frac{1}{e^{-((\beta)_1 \cdot x_1) + ((\beta)_2 \cdot x_1) + .... + (\beta)_n \cdot x_n) + \beta_0)}}</math> 
'''Mashine learning''' 
* Ein Modell muss zunächst von einem System erlent werden, dann kann das System eine Aussage treffen, ob z.B. 'krank' oder 'gesund'. 
* Parameter <math> \beta_1 </math> und <math> \beta_0 </math> können nicht berechnet werden. → Müssen mit Hilfe eines Algorithmus geschätzt werden. 
''' WIRD NOCH FERTIG GEMACHT'''
'''Maximum-Likelihood:''' 
* Schätzung zur Parameterbestimmung. 
* ''Training'': Lerndaten sind bekannte Werte zur Aussage 'krank' oder 'gesund' 
→ Algorithmus bestimmt einen genauen Wert für <math> \beta_1</math>, um krank (1) und gesund (0) zu bestimmen. 
→ Danach kann mit dem Modell bestimmt werden, ob es gut oder schlecht ist. 
*'''Problem''': System versucht einen optimalen Wert zu finden 
→ ''Overfitting'': Zu genaue Beschreibung des Modells. 
'''Frage:''' Wie gut ist die Qualität des Modells? 
==Receiver Operation Characteristic (ROC)==
Wird genutzt um zu prüfen, ob das Modell gut ist. 
→ Wie viele falsch positive, falsch negative, aber auch richtig positive und richtig negative Aussagen trifft das Modell? 
{| class="wikitable float-left" style="text-align:center"
| || ||colspan="3" style="text-align:center"| Mensch
|-
| || || '''Krebs''' || '''Gesund'''
|-
|rowspan="2"| Modellvorhersage
| '''Krebs''' ||style="background:#B9FFC5 " | TP || style="background:#FFCBCB| FP
|-
| '''Gesund''' ||style="background:#FFCBCB| FN || style="background:#B9FFC5 " | TN
|-
|}
Beispiel 'Krebs' = positiv, 'geund' = negativ
* TP: True Positive (richtig positiv) → Modell sagt 'Krebs' richtig voraus. 
* TN: True Negative (richtig negativ) → Modell sagt 'gesund' richtig voraus. 
* FP: False Positive (falsch positiv) → Modell sagt der Patient hat Krebs, obwohl er gesund ist. 
* FN: False Negative (falsch negativ) → Modell sagt 'gesund', obwohl der Patient Krebs hat. 
==Testen auf Sensitivität==
Möglichst viele 'Kranke' sollen richtig bestimmt werden. 
<math> \text{Sensitivität} = \frac{\text{TP}}{\text{TP + FN}} </math>
* Bei einem perfekten Modell gibt dieses keine falsch negativen Ergebnisse aus. 
* Ausgabe 1 = Perfektes Modell, erkennt alle mit Krebs. 
* Ausgabe 0 = Schlechtes Modell, erkennt keine mit Krebs. 

==Testen auf Spezifität==
Möglichst viele 'Gesunde' sollen richtig bestimmt werden. 
<math> \text{Spezifität} = \frac{\text{TN}}{\text{ FP + TN}} </math>
*Entweder hohe Sensitivität oder hohe Spezifität. 
* Was besser ist kommt auf die Fragestellung an. 
'''Treshold''': 
Cutoff-Wert der als Grenzwert festgelegt wird nach dem beurteilt wird, ob der zu bewertende Wert 'krank', oder 'gesund' zugeordnet wird. 
'''Beispiel zur Bestimmung des optimalen Treshold''' 

{| class="wikitable"
| || || || colspan="5" style="text-align:center"| Treshold
|-
! Zustand !! Ausgabe Modell !! 0 !! 0,25 !! 0,45 !! 0,55 !! 0,75
|-
| krank || 0,5 || style="background:#B9FFC5 " |TP || style="background:#B9FFC5 " |TP || style="background:#B9FFC5 " |TP|| style="background:#FFCBCB| FN || style="background:#FFCBCB| FN
|-
| krank || 0,6 || style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP|| style="background:#FFCBCB| FN
|-
| krank || 0,2 || style="background:#B9FFC5 " | TP || style="background:#FFCBCB| FN || style="background:#FFCBCB| FN || style="background:#FFCBCB| FN || style="background:#FFCBCB| FN
|-
| krank || 0,56 || style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP|| style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP || style="background:#FFCBCB| FN
|-
| gesund || 0,5 || style="background:#FFCBCB| FP || style="background:#FFCBCB| FP || style="background:#FFCBCB| FP || style="background:#FFCBCB| FP || style="background:#B9FFC5 " | TN
|-
| gesund || 0,1 || style="background:#FFCBCB| FP || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN
|-
| gesund || 0,2 || style="background:#FFCBCB| FP || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN
|-
| gesund || 0,4 || style="background:#FFCBCB| FP || style="background:#FFCBCB| FP || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN
|}
*Treshold 0 = hohe Sensitivität 
*Treshold 0,75 = hohe Spezifität 
==Area Under the Curve==

{| class="wikitable"
| || || colspan="5" style="text-align:center"| Treshold
|-
! !! !! 0 !! 0,25 !! 0,45 !! 0,55 !! 0,75
|-
| Sensitivitätt || <math>\frac{\text{TP}}{\text{TP + FN}} </math> || style="background:#FFAA00 | 1 || style="background:#FFFF40 | 0,75 || style="background:#B3B7FF | 0,75 || style="background:#FFCBCB| 0,5 || style="background:#B9FFC5 "| 0
|-
| Spezifität || <math>\frac{\text{TN}}{\text{ FP + TN}} </math> || style="background:#FFAA00 | 0 || style="background:#FFFF40 |0,5 || style="background:#B3B7FF | 0,75 || style="background:#FFCBCB| 1 || style="background:#B9FFC5 "| 1
|}
[[File:VL8 AUC.png|mini|500px]]

*1 = optimal 
*0 = auch gut, positiv und negativ müssen nur umgedreht werden 
*0,5 = schlecht, da die Bestimmung des Systems durch Zufall erfolgt

9 Biomarker

2019-07-02T00:29:47Z

Vero:

= Biomarker =
'''Medizinische Biomarker''' 
* Ein Biomarker ist ein messbarer Parameter biologischer Prozesse, der prognostische, oder diagnostische Aussagekraft hat und somit ein Indikator für Krankheiten, oder Umwelteinflüsse ist.
* Charakteristische biologische Merkmale, die objektiv gemessen werden können und auf einen normalen biologischen, oder krankhaften Prozess im Körper hinweisen können.
* Es können Zellen, Gene, Genprodukte, Enzyme, oder Hormone sein.
[[File:VL8 1.png|mini|850px]]
Wie in der Abbildung oben dargestellt, kann über Einzelwerte keine Aussage getroffen werden, ob der Patient krank oder gesund ist. 
→ deswegen bedarf es mehrerer Biomarker 

'''Frage:''' 
Wie kann für einen TPM-Wert vorhergesagt werden, ob es sich um 'Krebs' oder 'gesund' handelt? 
==Logistische Funktion==
<math> y = \beta_1 \cdot TPM_{HIF1\alpha} + \beta_0 </math> 

<math> logit_{(P)} = log \frac{P}{1-P} </math> 
* Damit wird die Wahrscheinlichkeit, dass jemand z.B. Krebs bekommt durch Gegenwahrscheinlichkeit bestimmt. 
==Biomarkersignatur==
Erweiterung für mehrere Gene:

<math> P(x) = \frac{1}{e^{-((\beta)_1 \cdot x_1) + ((\beta)_2 \cdot x_1) + .... + (\beta)_n \cdot x_n) + \beta_0)}}</math> 
'''Mashine learning''' 
* Ein Modell muss zunächst von einem System erlent werden, dann kann das System eine Aussage treffen, ob z.B. 'krank' oder 'gesund'. 
* Parameter <math> \beta_1 </math> und <math> \beta_0 </math> können nicht berechnet werden. → Müssen mit Hilfe eines Algorithmus geschätzt werden. 

'''Maximum-Likelihood:''' 
* Schätzung zur Parameterbestimmung. 
* ''Training'': Lerndaten sind bekannte Werte zur Aussage 'krank' oder 'gesund' 
→ Algorithmus bestimmt einen genauen Wert für <math> \beta_1</math>, um krank (1) und gesund (0) zu bestimmen. 
→ Danach kann mit dem Modell bestimmt werden, ob es gut oder schlecht ist. 
*'''Problem''': System versucht einen optimalen Wert zu finden 
→ ''Overfitting'': Zu genaue Beschreibung des Modells. 
'''Frage:''' Wie gut ist die Qualität des Modells? 
==Receiver Operation Characteristic (ROC)==
Wird genutzt um zu prüfen, ob das Modell gut ist. 
→ Wie viele falsch positive, falsch negative, aber auch richtig positive und richtig negative Aussagen trifft das Modell? 
{| class="wikitable float-left" style="text-align:center"
| || ||colspan="3" style="text-align:center"| Mensch
|-
| || || '''Krebs''' || '''Gesund'''
|-
|rowspan="2"| Modellvorhersage
| '''Krebs''' ||style="background:#B9FFC5 " | TP || style="background:#FFCBCB| FP
|-
| '''Gesund''' ||style="background:#FFCBCB| FN || style="background:#B9FFC5 " | TN
|-
|}
Beispiel 'Krebs' = positiv, 'geund' = negativ
* TP: True Positive (richtig positiv) → Modell sagt 'Krebs' richtig voraus. 
* TN: True Negative (richtig negativ) → Modell sagt 'gesund' richtig voraus. 
* FP: False Positive (falsch positiv) → Modell sagt der Patient hat Krebs, obwohl er gesund ist. 
* FN: False Negative (falsch negativ) → Modell sagt 'gesund', obwohl der Patient Krebs hat. 
==Testen auf Sensitivität==
Möglichst viele 'Kranke' sollen richtig bestimmt werden. 
<math> \text{Sensitivität} = \frac{\text{TP}}{\text{TP + FN}} </math>
* Bei einem perfekten Modell gibt dieses keine falsch negativen Ergebnisse aus. 
* Ausgabe 1 = Perfektes Modell, erkennt alle mit Krebs. 
* Ausgabe 0 = Schlechtes Modell, erkennt keine mit Krebs. 

==Testen auf Spezifität==
Möglichst viele 'Gesunde' sollen richtig bestimmt werden. 
<math> \text{Spezifität} = \frac{\text{TN}}{\text{ FP + TN}} </math>
*Entweder hohe Sensitivität oder hohe Spezifität. 
* Was besser ist kommt auf die Fragestellung an. 
'''Treshold''': 
Cutoff-Wert der als Grenzwert festgelegt wird nach dem beurteilt wird, ob der zu bewertende Wert 'krank', oder 'gesund' zugeordnet wird. 
'''Beispiel zur Bestimmung des optimalen Treshold''' 

{| class="wikitable"
| || || || colspan="5" style="text-align:center"| Treshold
|-
! Zustand !! Ausgabe Modell !! 0 !! 0,25 !! 0,45 !! 0,55 !! 0,75
|-
| krank || 0,5 || style="background:#B9FFC5 " |TP || style="background:#B9FFC5 " |TP || style="background:#B9FFC5 " |TP|| style="background:#FFCBCB| FN || style="background:#FFCBCB| FN
|-
| krank || 0,6 || style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP|| style="background:#FFCBCB| FN
|-
| krank || 0,2 || style="background:#B9FFC5 " | TP || style="background:#FFCBCB| FN || style="background:#FFCBCB| FN || style="background:#FFCBCB| FN || style="background:#FFCBCB| FN
|-
| krank || 0,56 || style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP|| style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP || style="background:#FFCBCB| FN
|-
| gesund || 0,5 || style="background:#FFCBCB| FP || style="background:#FFCBCB| FP || style="background:#FFCBCB| FP || style="background:#FFCBCB| FP || style="background:#B9FFC5 " | TN
|-
| gesund || 0,1 || style="background:#FFCBCB| FP || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN
|-
| gesund || 0,2 || style="background:#FFCBCB| FP || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN
|-
| gesund || 0,4 || style="background:#FFCBCB| FP || style="background:#FFCBCB| FP || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN
|}
*Treshold 0 = hohe Sensitivität 
*Treshold 0,75 = hohe Spezifität 
==Area Under the Curve==

{| class="wikitable"
| || || colspan="5" style="text-align:center"| Treshold
|-
! !! !! 0 !! 0,25 !! 0,45 !! 0,55 !! 0,75
|-
| Sensitivitätt || <math>\frac{\text{TP}}{\text{TP + FN}} </math> || style="background:#FFAA00 | 1 || style="background:#FFFF40 | 0,75 || style="background:#B3B7FF | 0,75 || style="background:#FFCBCB| 0,5 || style="background:#B9FFC5 "| 0
|-
| Spezifität || <math>\frac{\text{TN}}{\text{ FP + TN}} </math> || style="background:#FFAA00 | 0 || style="background:#FFFF40 |0,5 || style="background:#B3B7FF | 0,75 || style="background:#FFCBCB| 1 || style="background:#B9FFC5 "| 1
|}
[[File:VL8 AUC.png|mini|500px]]

*1 = optimal 
*0 = auch gut, positiv und negativ müssen nur umgedreht werden 
*0,5 = schlecht, da die Bestimmung des Systems durch Zufall erfolgt

File:VL8 AUC.png

2019-07-02T00:21:13Z

Vero:

Area Under the Curve

9 Biomarker

2019-07-01T23:42:00Z

Vero:

= Biomarker =
'''Medizinische Biomarker''' 
* Ein Biomarker ist ein messbarer Parameter biologischer Prozesse, der prognostische, oder diagnostische Aussagekraft hat und somit ein Indikator für Krankheiten, oder Umwelteinflüsse ist.
* Charakteristische biologische Merkmale, die objektiv gemessen werden können und auf einen normalen biologischen, oder krankhaften Prozess im Körper hinweisen können.
* Es können Zellen, Gene, Genprodukte, Enzyme, oder Hormone sein.
[[File:VL8 1.png|mini|850px]]
Wie in der Abbildung oben dargestellt, kann über Einzelwerte keine Aussage getroffen werden, ob der Patient krank oder gesund ist. 
→ deswegen bedarf es mehrerer Biomarker 

'''Frage:''' 
Wie kann für einen TPM-Wert vorhergesagt werden, ob es sich um 'Krebs' oder 'gesund' handelt? 
==Logistische Funktion==
<math> y = \beta_1 \cdot TPM_{HIF1\alpha} + \beta_0 </math> 

<math> logit_{(P)} = log \frac{P}{1-P} </math> 
* Damit wird die Wahrscheinlichkeit, dass jemand z.B. Krebs bekommt durch Gegenwahrscheinlichkeit bestimmt. 
==Biomarkersignatur==
Erweiterung für mehrere Gene:

<math> P(x) = \frac{1}{e^{-((\beta)_1 \cdot x_1) + ((\beta)_2 \cdot x_1) + .... + (\beta)_n \cdot x_n) + \beta_0)}}</math> 
'''Mashine learning''' 
* Ein Modell muss zunächst von einem System erlent werden, dann kann das System eine Aussage treffen, ob z.B. 'krank' oder 'gesund'. 
* Parameter <math> \beta_1 </math> und <math> \beta_0 </math> können nicht berechnet werden. → Müssen mit Hilfe eines Algorithmus geschätzt werden. 

'''Maximum-Likelihood:''' 
* Schätzung zur Parameterbestimmung. 
* ''Training'': Lerndaten sind bekannte Werte zur Aussage 'krank' oder 'gesund' 
→ Algorithmus bestimmt einen genauen Wert für <math> \beta_1</math>, um krank (1) und gesund (0) zu bestimmen. 
→ Danach kann mit dem Modell bestimmt werden, ob es gut oder schlecht ist. 
*'''Problem''': System versucht einen optimalen Wert zu finden 
→ ''Overfitting'': Zu genaue Beschreibung des Modells. 
'''Frage:''' Wie gut ist die Qualität des Modells? 
==Receiver Operation Characteristic (ROC)==
Wird genutzt um zu prüfen, ob das Modell gut ist. 
→ Wie viele falsch positive, falsch negative, aber auch richtig positive und richtig negative Aussagen trifft das Modell? 
{| class="wikitable float-left" style="text-align:center"
| || ||colspan="3" style="text-align:center"| Mensch
|-
| || || '''Krebs''' || '''Gesund'''
|-
|rowspan="2"| Modellvorhersage
| '''Krebs''' ||style="background:#B9FFC5 " | TP || style="background:#FFCBCB| FP
|-
| '''Gesund''' ||style="background:#FFCBCB| FN || style="background:#B9FFC5 " | TN
|-
|}
Beispiel 'Krebs' = positiv, 'geund' = negativ
* TP: True Positive (richtig positiv) → Modell sagt 'Krebs' richtig voraus. 
* TN: True Negative (richtig negativ) → Modell sagt 'gesund' richtig voraus. 
* FP: False Positive (falsch positiv) → Modell sagt der Patient hat Krebs, obwohl er gesund ist. 
* FN: False Negative (falsch negativ) → Modell sagt 'gesund', obwohl der Patient Krebs hat. 
==Testen auf Sensitivität==
Möglichst viele 'Kranke' sollen richtig bestimmt werden. 
<math> \text{Sensitivität} = \frac{\text{TP}}{\text{TP + FN}} </math>
* Bei einem perfekten Modell gibt dieses keine falsch negativen Ergebnisse aus. 
* Ausgabe 1 = Perfektes Modell, erkennt alle mit Krebs. 
* Ausgabe 0 = Schlechtes Modell, erkennt keine mit Krebs. 

==Testen auf Spezifität==
Möglichst viele 'Gesunde' sollen richtig bestimmt werden. 
<math> \text{Spezifität} = \frac{\text{TN}}{\text{ FP + TN}} </math>
*Entweder hohe Sensitivität oder hohe Spezifität. 
* Was besser ist kommt auf die Fragestellung an. 
'''Treshold''': 
Cutoff-Wert der als Grenzwert festgelegt wird nach dem beurteilt wird, ob der zu bewertende Wert 'krank', oder 'gesund' zugeordnet wird. 
'''Beispiel zur Bestimmung des optimalen Treshold''' 

{| class="wikitable"
| || || colspan="5" style="text-align:center"| Treshold
|-
! Zustand !! Ausgabe Modell !! 0 !! 0,25 !! 0,45 !! 0,55 !! 0,75
|-
| krank || 0,5 || style="background:#B9FFC5 " |TP || style="background:#B9FFC5 " |TP || style="background:#B9FFC5 " |TP|| style="background:#FFCBCB| FN || style="background:#FFCBCB| FN
|-
| krank || 0,6 || style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP|| style="background:#FFCBCB| FN
|-
| krank || 0,2 || style="background:#B9FFC5 " | TP || style="background:#FFCBCB| FN || style="background:#FFCBCB| FN || style="background:#FFCBCB| FN || style="background:#FFCBCB| FN
|-
| krank || 0,56 || style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP|| style="background:#B9FFC5 " | TP || style="background:#B9FFC5 " | TP || style="background:#FFCBCB| FN
|-
| gesund || 0,5 || style="background:#FFCBCB| FP || style="background:#FFCBCB| FP || style="background:#FFCBCB| FP || style="background:#FFCBCB| FP || style="background:#B9FFC5 " | TN
|-
| gesund || 0,1 || style="background:#FFCBCB| FP || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN
|-
| gesund || 0,2 || style="background:#FFCBCB| FP || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN
|-
| gesund || 0,4 || style="background:#FFCBCB| FP || style="background:#FFCBCB| FP || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN || style="background:#B9FFC5 " | TN
|}
*Treshold 0 = hohe Sensitivität 
*Treshold 0,75 = hohe Spezifität

9 Biomarker

2019-07-01T22:48:43Z

Vero:

9 Biomarker

2019-07-01T22:46:38Z

Vero:

9 Biomarker

2019-07-01T21:16:09Z

Vero: Created page with "= Biomarker = '''Medizinische Biomarker''' * Ein Biomarker ist ein messbarer Parameter biologischer Prozesse, der prognostische, oder diagnostische Aussagekraft hat und so..."

File:VL8 1.png

2019-07-01T20:57:30Z

Vero:

Expressionen

7 Multiples Testen

2019-07-01T19:43:55Z

Vero:

=Multiples Testen=
[[File:VL7.png|right|frameless|thumb]] 

In der Tabelle sind die Werte für 4 Gene dargestellt. Insgesamt wurden 5000 Gene untersucht. 
* K1-3 stellen die Kontrollen dar. 
* T1-3 die getesteten mit dem NAT8L knock-out.
* Der fold change stellt das Verhältnis von knock-out und Kontrolle dar → Hoch oder runter regulierte Gene.
* Die Ergebnisse sind nicht gut vergleichbar, da sie teilweise eine große Streuung zeigen.

{| class="wikitable" style="text-align:center"
|-
! Gen !! K1 !! K2 !! K3 !! T1 !! T2 !! T3 !! <math>\overline{X}</math> Kontrolle !! <math>\overline{X}</math> -NAT8L !! fold change !! p-Wert !! pi-Wert
|-
| NAT8L || 340 || 348 || 350 || 2 || 0 || 4 || 340 || 2 || 0,0058 || 1,00 x <math>10^{-5}</math> || 0,05
|-
| LDH || 57 || 68 || 34 || 112 || 128 || 105 || 59,7 || 115 || 1,93 || 0,0043 || 21,5
|-
| IDH || 215 || 110 || 55 || 158 || 357 || 415 || 126,7 || 310 || 2,44 || 0,129 || 645
|-
| HIF1<math>\alpha</math> || 57 || 58 || 57 || 564 || 570 || 565 || 57,3 || 566,3 || 9,88 || 7,2 x <math>10^{-6}</math> || 0,036
|-
|}
== t-Test==
Der t-Test wird verwendet, um zu bestimmen, ob die Mittelwerte zweier Stichproben sich signifikant voneinander unterscheiden. Dafür wird die Nullhypothese H0 getestet, sie sagt aus, dass Stichprobe und Kontrolle sich nicht signifikant unterscheiden. In diesem Fall also <math>H_0: \overline{X} Kontrolle = \overline{X}-NAT8L </math> 

Die Gegenhypothese H1 sagt aus, dass sich die Ergebnisse signifikant unterscheiden, also 

<math>H_1: \overline{X} Kontrolle \ne \overline{X}-NAT8L </math> 
Mit Hilfe des t-Tests wird bestimmt, ob die Nullhypothese zutrifft, oder ob sie verworfen wird und die Gegenhypothese angenommen wird. Die Formel zur Berechnung der t-Werte entspricht: 
<math> t = \frac{\overline{X}_{1} - \overline{X}_{2} }{s_{x} \cdot \surd \frac{1}{n_{1}} + \frac{1}{n_{2}}} </math> 

'''Parameter:''' 
* <math>\overline{X}_1 </math> = Mittelwert Stichprobe 1 
* <math>\overline{X}_2 </math> = Mittelwert Stichprobe 2 
* <math>s_x </math> = Standardabweichung
* n = Größe der Stichprobe 
Nach der Berechnung der t- Werte, Standardabweichung und den Freiheitsgraden werden die t-Werte in die t-Verteilung eingesetzt. Daraus kann mit Hilfe des p-Werts beurteilt werden, ob die Nullhypotese angenommen, oder verworfen wird. 
===P-Wert===
Der p-Wert

'''Problem:''' 
In diesem Fall wurden 5000 Genexpressionen verglichen (n=5000). Statistisch gesehen werden ca. 250 Gene durch Zufall einen p-Wert von <math>\leq</math> 0,05 haben. → <math>\alpha</math>-Fehler (Fehler 1. Art)
* Fehler 1. Art: Die Nullhypothese wird verworfen, obwohl sie eigentlich zutrifft.

==Lösung 1: Bonferroni-Korrektur==
* Für jeden p-Wert wird ein neuer p-Wert berechnet.
* Bestimmter p-Wert wird mit Größe der Stichprobe multipliziert.
<math>P_i* = P_i \cdot n </math> 
'''Parameter:''' 
* <math>P_i = </math> Bestimmter p-Wert für Gen 'i' 
* <math>P_i* = </math> Korrigierter P-Wert für Gen 'i' 
* n = Größe der Stichprobe
{| class="wikitable" style="float:left; margin-right:1em"
|-
! Gen !! <math>P_i </math> !! <math>P_i* =</math>
|-
| NAT8L || 1,00 x <math>10^{-5}</math> || 0,05 → Signifikant
|-
| LDH || 0,0043 || 21,5
|-
| IDH || 0,129 || 645
|-
|HIF1<math>\alpha</math> || 7,2 x <math>10^{-6}</math> || 0,036 → Signifikant
|}
{| class="wikitable" style="float:left"
! Vorteile || Nachteile
|-
| - Statistisch sehr sicher || - Statistisch sehr sicher, aber auch sehr streng
|-
| || - Produzuert viele falsch negative Ergebnisse
|-
|}
 
 
 
 
 
 
 

==Lösung 2: Benjamini-Hochberg-Prozedur==
* Eine Alternative zu Bonferroni, die nicht so streng ist. 
* Es wird ein gewisser Prozentsatz bestimmt, der auch falsch akzeptiert wird. 
* Q als Bezeichnung für die False Discovery Rate (FDR). 
 
# Sortiere alle p-Werte aufsteigend. 
# Weise jedem p-Wert einen Rang 'i' zu. 
# Berechne für jeden p-Wert den Benjamini-Hochberg kritischen Wert. 
# Vergleiche original p-Wert mit kritischem BH und finde den größten p-Wert (<math> p_k </math>), der kleiner, als der der kritische BH ist.
# Lehne alle Nullhypothesen <math> H_t</math> für t= 1 bis k ab.

Benjamini-Hochberg kritischer Wert (BH) = <math>\frac{i}{n} \cdot Q </math> 
'''Parameter:''' 
n = Anzahl der Tests 
i = Rang 
Q = False Discovery Rate 

'''Beispiel:'''

{| class="wikitable" style="text-align:center"
|-
! Gen !! p-Wert !! Rang 'i' !! BH !! p < BH !! Signifikant für Q = 5 %
|-
| HIF1<math>\alpha</math> || 7,2 x <math>10^{-6}</math> || 1 || 1 x <math>10^{-5}</math> || wahr || ja
|-
| MDH || 2,5 x <math>10^{-5}</math> || 2 || 2 x <math>10^{-5}</math> || falsch ||ja
|-
| HK || 2,8 x <math>10^{-5}</math> || 3 || 3 x <math>10^{-5}</math> || '''wahr''' || → '''ja'''
|-
| LDH || 0,0043 || 4 || 4 x <math>10^{-5}</math> || falsch || nein
|-
| PDH || 0,02 ||5 || 5 x <math>10^{-5}</math>|| falsch || nein
|-
| IDH || 0,129 || 6 || 6 x <math>10^{-5}</math> || falsch || nein
|-
| ...2994 weitere Gene || ... || ... || ... ||... || ...
|-
|}

7 Multiples Testen

2019-07-01T19:16:39Z

Vero:

7 Multiples Testen

2019-07-01T16:05:53Z

Vero:

== Multiples Testen==
[[File:VL7.png|right|frameless|thumb]] 

In der Tabelle sind die Werte für 4 Gene dargestellt. Insgesamt wurden 5000 Gene untersucht. 
* K1-3 stellen die Kontrollen dar. 
* T1-3 die getesteten mit dem NAT8L knock-out.
* Der fold change stellt das Verhältnis von knock-out und Kontrolle dar → Hoch oder runter regulierte Gene.
* Die Ergebnisse sind nicht gut vergleichbar, da sie teilweise eine große Streuung zeigen.

{| class="wikitable" style="text-align:center"
|-
! Gen !! K1 !! K2 !! K3 !! T1 !! T2 !! T3 !! <math>\overline{X}</math> Kontrolle !! <math>\overline{X}</math> -NAT8L !! fold change !! p-Wert !! pi-Wert
|-
| NAT8L || 340 || 348 || 350 || 2 || 0 || 4 || 340 || 2 || 0,0058 || 1,00 x <math>10^{-5}</math> || 0,05
|-
| LDH || 57 || 68 || 34 || 112 || 128 || 105 || 59,7 || 115 || 1,93 || 0,0043 || 21,5
|-
| IDH || 215 || 110 || 55 || 158 || 357 || 415 || 126,7 || 310 || 2,44 || 0,129 || 64,5
|-
| HIF1<math>\alpha</math> || 57 || 58 || 57 || 564 || 570 || 565 || 57,3 || 566,3 || 9,88 || 7,2 x <math>10^{-6}</math> || 0,036
|-
|}
=== t-Test===
Der t-Test wird verwendet, um zu bestimmen, ob die Mittelwerte zweier Stichproben sich signifikant voneinander unterscheiden. Dafür wird die Nullhypothese H0 getestet, sie sagt aus, dass Stichprobe und Kontrolle sich nicht signifikant unterscheiden. In diesem Fall also <math>H_0: \overline{X} Kontrolle = \overline{X}-NAT8L </math> 

Die Gegenhypothese H1 sagt aus, dass sich die Ergebnisse signifikant unterscheiden, also 

<math>H_1: \overline{X} Kontrolle \ne \overline{X}-NAT8L </math> 
Mit Hilfe des t-Tests wird bestimmt, ob die Nullhypothese zutrifft, oder ob sie verworfen wird und die Gegenhypothese angenommen wird. Die Formel für den t-Test entspricht: 
<math> t = \frac{\overline{X}_{1} - \overline{X}_{2} }{s_{x} \cdot \surd \frac{1}{n_{1}} + \frac{1}{n_{2}}} </math> 

Parameter: 
* <math>\overline{X}_1 </math> = Mittelwert Stichprobe 1 
* <math>\overline{X}_2 </math> = Mittelwert Stichprobe 2 
* <math>s_x </math> = Standardabweichung
* n = Größe der Stichprobe

7 Multiples Testen

2019-07-01T15:16:23Z

Vero:

7 Multiples Testen

2019-07-01T14:52:56Z

Vero: Created page with "== Multiples Testen== thumb {| class="wikitable" style="text-align:center" |- ! Gen !! C1 !! C2 !! C3 !! !! fold change |- | Example |..."

== Multiples Testen==
[[File:VL7.png|right|frameless|thumb]] 
{| class="wikitable" style="text-align:center"
|-
! Gen !! C1 !! C2 !! C3 !! !! fold change
|-
| Example || Example || Example || Example || Example || Example || Example || Example || Example
|-
| Example || Example || Example || Example || Example || Example || Example || Example || Example
|-
| Example || Example || Example || Example || Example || Example || Example || Example || Example
|}
<math> \bar{x} <\math>

{| class="wikitable" style="text-align:center"
| A
| B
| C
|-
|colspan="3"| eine Zeile
|}

File:VL7.png

2019-07-01T14:38:39Z

Vero:

Überblick

FASTA-Format

2019-06-06T13:59:47Z

Vero: Created page with "Das FASTA-Format ist ein textbasiertes Format zur Darstellung und Speicherung von Nukleotidsequenzen einer DNA, z.B. nach einer RNASeq. {| class="wikitable" ! colspan="3..."

Das FASTA-Format ist ein textbasiertes Format zur Darstellung und Speicherung von Nukleotidsequenzen einer DNA, z.B. nach einer RNASeq. 

{| class="wikitable"
! colspan="3"| Aufbau FASTA-Format
|-
| '''Kopfzeile''' ||Bacillus subtilis | > OpuC | Bacillus subtilis | Probe xy
|-
| '''Kommentar''' || ; Optionaler Kommentar
|-
| '''Sequenz''' || MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLG KAAKKADRLAAEGLVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYK ALVAELEKENEERRRLKDPNKPEHKIPQFASRKQLSDAILKEAEEKIKEE LKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTLMGQFYVMDDKKTVE QVIAEKEKEFGGKIKIVEFICFEVGEGEVAAQLFDKAVQLLREKGLG
|}

*Die Kopfzeile ist die Sequenz-ID und beginnt mit einem '''>''', ohne Leerzeile startet der Text. Dabei handelt es sich um eine genaue Beschreibung der Sequenz, um diese von den anderen Sequenzen unterscheiden zu können.
*Die Kommentarzeilen sind optional, dabei kann es eine, oder mehrere Kommentarzeilen geben, eingeleitet werden diese durch ein ''';''' (Semikolon).
*Nach den oben genannten Zeilen startet die Sequenz in 5' → 3' Richtung, entweder in Form von Nukleinbasen (AGCT), oder Aminosäuren-Codes. Lücken werden durch '''-''' dargestellt.

Glossar

2019-06-06T13:17:56Z

Vero:

== A ==
[[Alignment]] 
[[Algorithmus]] 
[[Assembly]]
== B ==
[[Benjamini-Hochberg-Prozedur]] 
[[Bonferroni-Korrektur]] 
[[Burrows-Wheeler Transformation]]
== C ==
[[Contig]] 
[[Coverage]]
== D ==
[[Dynamic programming]]
== E ==
== F ==
[[FASTA-Format]] 
[[FASTQ-Format]]
== G ==
[[gap penalty]]
== H ==
== I ==
[[Illumina]]
== J ==
== K ==
== L ==
[[Lander-Waterman-Modell]] 
[[Library]]
== M ==
[[Microarrays]]
== N ==
[[NGS]] 
[[Nullhypothese]]
== O ==
== P ==
[[p-value]]
== Q ==
== R ==
[[reads]] 
[[RNASeq]] 
[[RPKM]]

== S ==
[[Scaffold]] 
[[Smith-Waterman Algorithmus]]
== T ==
[[t-Test]] 
[[TMM]] 
[[TPM]] 
[[Transkriptom]]

== U ==
== V ==
== W ==
== X ==
== Y ==
== Z ==

RPKM

2019-06-06T13:06:54Z

Vero: Created page with "==RPKM== RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken von Genen aus einer Probe. <b..."

==RPKM==
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken von Genen aus einer Probe. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> RPKM = \frac{ c_\text{i}}{L_\text{i} \cdot N} </math> || ci = Anzahl an ausrichtbaren reads für ein Transkript 'i' 
Li = Länge des Transkripts/Gens 'i' in kbp 
N = Gesamtanzahl an ausrichtbaren reads in Millionen
|}

<math> \frac{ c_\text{i}}{L_\text{i}} </math> → Normalisierung der Genlänge 
<math> L_\text{i} \cdot N </math> → Normalisierung der Sequenziertiefe 
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. 
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.

'''Beispiel:'''

[[File:Beispiel Probe.png|Beispiel Probe]] 
* <math> RPKM (A) = \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6} </math> 
* <math> RPKM (B) = \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64 \cdot 10^{-6} </math> 
* <math> RPKM (C) = \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43 \cdot 10^{-6} </math> 

Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.

TPM

2019-06-06T13:05:42Z

Vero: Created page with "==TPM== TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken von Genen einer Probe. {| class="wikitable" |- ! Formel..."

==TPM==
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken von Genen einer Probe. 

{| class="wikitable"
|-
! Formel !! Parameter
|-
|<math> TPM = \frac{ c_\text{i}}{L_\text{i}} \cdot \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}} \cdot 10^6 </math> || ci = Anzahl an ausrichtbaren reads für ein Transkript 'i' 
Li = Länge des Transkripts/Gens 'i' in bp 
N = Gesamtanzahl an ausrichtbaren reads in Millionen
|} 
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPMi die Anzahl an Transkripten des Types 'i'. 
'''Beispiel:''' 
[[File:Beispiel Probe.png|Beispiel Probe]] 
*<math> TPM (A) = \frac{ 12}{600} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 402614 </math> 
*<math> TPM (B) = \frac{ 24}{1100} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 439216 </math> 
*<math> TPM (C) = \frac{ 11}{11400} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 158170 </math> 
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.

TMM

2019-06-06T13:03:41Z

Vero: Created page with "TMM steht für 'Trimmed mean of M-values normalization method' und wird verwendet, um Genexpressionen von Genen zwischen Proben miteinander vergleichen zu können, z.B. um zu..."

TMM steht für 'Trimmed mean of M-values normalization method' und wird verwendet, um Genexpressionen von Genen zwischen Proben miteinander vergleichen zu können, z.B. um zu vergleichen, ob die Genexpression in normalen und in Krebszellen sich voneinander unterscheidet. 
'''Vorgehen:''' 
'''1.''' Der Gewichtungsfaktor für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k' wird bestimmt. Dabei werden kleinere Werte verstärkt und große abgeschwächt. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> W_\text{gk}^\text{k`} = \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}} + \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} </math> || Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' 
Nk = Gesamtanzahl an reads für Probe 'k' 
k' = 2. Probe (Referenz-Bedingung)
|}
'''2.''' Der Mittelwert aller Expressionsverhältnisse wird berechnet. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> M_\text{gk}^\text{k`} = log_2 \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}} </math> || Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' 
Nk = Gesamtanzahl an reads für Probe 'k' 
k' = 2. Probe (Referenz-Bedingung)
|}
'''3.''' Die gewichteten Mittelwerte aller Expressionsverhältnisse werden berechnet. Einsetzen der in 1. und 2. ermittelten Werte. 
<div align="center"> <math> TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} </math></div> 

{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> log_2 (TMM_\text{k}^\text{k`}) = \frac{ \underset {g \in G}{\sum} W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} </math> || <math> M_\text{gk}^\text{k`} = </math> Mittelwerte aller Expressionsverhältnisse 
<math> W_\text{gk}^\text{k`} = </math> Gewichtungsfaktor der Expressionsverhältnisse 
G = Set aller Gene
|}

'''Bedingungen für dieses Verfahren:''' 
* Ygk , Ygk' > 0
* Die oberen und unteren 30 % der <math> M_\text{gk}^\text{k`} </math> Werte werden nicht berücksichtigt
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt

Glossar

2019-06-06T12:59:40Z

Vero: /* T */

== A ==
[[Alignment]] 
[[Algorithmus]] 
[[Assembly]]
== B ==
== C ==
[[Contig]] 
[[Coverage]]
== D ==
[[Dynamic programming]]
== E ==
== F ==
[[FASTA-Format]] 
[[FASTQ-Format]]
== G ==
[[gap penalty]]
== H ==
== I ==
[[Illumina]]
== J ==
== K ==
== L ==
[[Lander-Waterman-Modell]] 
[[Library]]
== M ==
[[Microarrays]]
== N ==
[[NGS]]
== O ==
== P ==
== Q ==
== R ==
[[reads]] 
[[RNASeq]] 
[[RPKM]]

== S ==
[[Scaffold]] 
[[Smith-Waterman Algorithmus]]
== T ==
[[TMM]] 
[[TPM]] 
[[Transkriptom]]

== U ==
== V ==
== W ==
== X ==
== Y ==
== Z ==

Glossar

2019-06-06T12:58:47Z

Vero: /* R */

== A ==
[[Alignment]] 
[[Algorithmus]] 
[[Assembly]]
== B ==
== C ==
[[Contig]] 
[[Coverage]]
== D ==
[[Dynamic programming]]
== E ==
== F ==
[[FASTA-Format]] 
[[FASTQ-Format]]
== G ==
[[gap penalty]]
== H ==
== I ==
[[Illumina]]
== J ==
== K ==
== L ==
[[Lander-Waterman-Modell]] 
[[Library]]
== M ==
[[Microarrays]]
== N ==
[[NGS]]
== O ==
== P ==
== Q ==
== R ==
[[reads]] 
[[RNASeq]] 
[[RPKM]]

== S ==
[[Scaffold]] 
[[Smith-Waterman Algorithmus]]
== T ==

[[Transkriptom]]

== U ==
== V ==
== W ==
== X ==
== Y ==
== Z ==

6.Normalisierungen

2019-06-06T12:51:13Z

Vero:

==Aufgabe 1: Grundlagen==
===a. Warum ist es notwendig RNASeq Daten zu normalisieren?===
Die Normalisierung von RNASeq Daten ist notwendig, um die Genexpression quantifizieren zu können und diese von verschiedenen Genen miteinander vergleichen zu können. Da die erhaltenen Daten meist sehr unterschiedlich sind, aufgrund verschiedener Genlängen und Sequenziertiefen etc., müssen diese erst durch die Normalisierungen aneinander angeglichen werden, um einen aussagekräftigen Vergleich möglich zu machen. 
===b. Rolle der Sequenziertiefe und Genlänge===
Die Sequenziertiefen und Genlängen müssen normalisiert werden, um die erhaltenen RNASeq Daten miteinander vergleichen zu können, da diese oft sehr unterschiedlich sind und das die Auswertung beeinflussen kann. So erhält man für längere Gene möglicherweise mehr reads, als für kürzere Gene, obwohl die Genexpression gleich ist, würde man da fälschlicherweise annehmen, dass das längere Gen stärker exprimiert wird. Bei einer hohen Sequenziertiefe erhält man mehr reads, als bei einer niedrigen Sequenziertiefe, dabei muss das Verhältnis der erhaltenen reads für ein Gen, zu der Gesamtzahl an reads einer Sequenzierung beachtet werden, dies ist durch Normalisierungen möglich.
==Aufgabe 2: RPKM und TPM==
{| class="wikitable center"
|-
! Gen & Genlänge (L) !! Counts (c) Replikat 1 !! Counts (c) Replikat 2
|-
| A (7 kb) || 5 || 16
|-
| B (12 kb) || 10 || 36
|-
| C (0,5 kb) || 2 || 8
|-
| D (25 kb) || 1 || 0
|}
===a. Normalisierung mit RPKM===
* RPKM steht für 'Reads per kilobase of transcript per Million mapped reads'
* Für die Normalisierung wird die Formel <math> RPKM = \frac{ c_\text{i}}{L_\text{i} \cdot N} </math> verwendet.
'''Parameter:''' 
ci = Anzahl an ausrichtbaren reads für ein Transkript 'i' 
Li = Länge des Transkripts/Gens 'i' in kbp 
N = Gesamtanzahl an ausrichtbaren reads in Millionen

<math> \frac{ c_\text{i}}{L_\text{i}} </math> → Normalisierung der Genlänge 
<math> L_\text{i} \cdot N </math> → Normalisierung der Sequenziertiefe 
'''In dieser Aufgabe:''' 
c = siehe Tabelle 
L = siehe Tabelle 
N (Replikat 1) = 18 | N (Replikat 2) = 60 
'''Beispiel Gen A, Replikat 1:''' 
<math> RPKM (A1) = \frac{ 5}{7 kb \cdot 18} = 0,0397 </math>
{| class="wikitable center"
|-
! Gen !! RPKM Replikat 1 !! RPKM Replikat 2
|-
| A || 0,0397 || 0,0381
|-
| B || 0,0463 || 0,05
|-
| C || 0,2222 || 0,2667
|-
| D || 0,0022 || 0
|}
* Ein hoher RPKM Wert, sagt aus, dass die Genexpression stärker ist, als bei einem niedrigeren RPKM Wert.
* Zum Vergleich der Genexpression innerhalb einer Probe, können die RPKM Werte gut genutzt werden, sie sind jedoch nicht dafür geeignet Genexpressionen von Genen verschiedener Proben miteinander zu vergleichen, da die Bedingungen meist sehr unterschiedlich sind und falsche Aussagen über die Genexpressionen gemacht werden können.
===b. Normalisierung mit TPM===
* TPM steht für 'Transcripts per Million.
* Wenn 1 Millionen Transkripte sequenziert werden würden, wäre TPMi die Anzahl an Transkripten des Typs 'i'.
* Im gegensatz zu RPKM wird L in Basenpaaren, statt in Kilobasenpaaren, angegeben. 
* Anders, als bei der Normalisierung mit RPKM wird erst die Genlänge und dann die Sequenziertiefe normalisiert.
* Für die Normalisierung wird die Formel <math> TPM = \frac{ c_\text{i}}{L_\text{i}} \cdot \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}} \cdot 10^6 </math> verwendet.
'''Parameter:''' 
ci = Anzahl an ausrichtbaren reads für ein Transkript 'i' 
Li = Länge des Transkripts/Gens 'i' in kbp 
N = Gesamtanzahl an ausrichtbaren reads in Millionen 
'''Beispiel Gen A, Replikat 1:''' 
<math> TPM (A1) = \frac{ 5}{7000} \cdot \dfrac {1}{ \dfrac {5}{7000} + \dfrac {10}{12000} + \dfrac {2}{500} + \dfrac {1}{25000}} \cdot 10^6 = 127834 </math> 
{| class="wikitable center"
|-
! Gen !! TPM Replikat 1 !! TPM Replikat 2
|-
| A || 127834 || 107383
|-
| B || 149139 || 140940
|-
| C || 715868 || 751678
|-
| D || 7159 || 0
|}

===c. Anwendungsbereich===
RPKM und TPM werden genutzt um die Expression verschiedener Gene, aus der gleichen Probe, einer RNA Sequenzierung miteinander zu vergleichen.
==Aufgabe 3: Normalisierung zwischen Proben==
==a. Normalisierungsmethode==
Für die Normalisierung zwischen Proben wird TMM eingesetzt. TMM steht für 'Trimmed mean of M – Values normalization method'.
==b. Wieso wird die Normalisierung bei RNASeq-Proben angewendet?==
TMM wird für die Normalisierung von RNASeq-Daten angewendet, um die Expression eines Gens unter verschiedenen Bedingungen zu vergleichen, z.B. ob es in Krebszellen stärker, oder schwächer exprimiert wird, als in gesunden Zellen.
==c. Normalisierung mit TMM==
'''1.''' Der Gewichtungsfaktor für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k' wird bestimmt. Dabei werden kleinere Werte verstärkt und große abgeschwächt. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> W_\text{gk}^\text{k`} = \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}} + \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} </math> || Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' 
Nk = Gesamtanzahl an reads für Probe 'k' 
k' = 2. Probe (Referenz-Bedingung)
|}
'''2.''' Der Mittelwert aller Expressionsverhältnisse wird berechnet. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> M_\text{gk}^\text{k`} = log_2 \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}} </math> || Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' 
Nk = Gesamtanzahl an reads für Probe 'k' 
k' = 2. Probe (Referenz-Bedingung)
|}
'''3.''' Die gewichteten Mittelwerte aller Expressionsverhältnisse werden berechnet. Einsetzen der in 1. und 2. ermittelten Werte. 
<div align="center"> <math> TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} </math></div> 

{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> log_2 (TMM_\text{k}^\text{k`}) = \frac{ \underset {g \in G}{\sum} W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} </math> || <math> M_\text{gk}^\text{k`} = </math> Mittelwerte aller Expressionsverhältnisse 
<math> W_\text{gk}^\text{k`} = </math> Gewichtungsfaktor der Expressionsverhältnisse 
G = Set aller Gene
|}

'''Bedingungen für dieses Verfahren:''' 
* Ygk , Ygk' > 0
* Die oberen und unteren 30 % der <math> M_\text{gk}^\text{k`} </math> Werte werden nicht berücksichtigt
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt

6.Normalisierungen

2019-06-05T11:29:02Z

Vero: Created page with "==Aufgabe 1: Grundlagen== ===a. Warum ist es notwendig RNASeq Daten zu normalisieren?=== Die Normalisierung von RNASeq Daten ist notwendig, um die Genexpression quantifizie..."

6 Normalisierungen

2019-06-03T21:25:17Z

Vero:

Auf dieser Seite sind die Themen zusammengeführt, die in Vorlesung 5 am 16.05.2019 behandelt wurden.

=Normalisierungen=
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können.
==RPKM==
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> RPKM = \frac{ c_\text{i}}{L_\text{i} \cdot N} </math> || ci = Anzahl an ausrichtbaren reads für ein Transkript 'i' 
Li = Länge des Transkripts/Gens 'i' in kbp 
N = Gesamtanzahl an ausrichtbaren reads in Millionen
|}

<math> \frac{ c_\text{i}}{L_\text{i}} </math> → Normalisierung der Genlänge 
<math> L_\text{i} \cdot N </math> → Normalisierung der Sequenziertiefe 
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. 
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.

'''Beispiel:'''

[[File:Beispiel Probe.png|Beispiel Probe]] 
* <math> RPKM (A) = \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6} </math> 
* <math> RPKM (B) = \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64 \cdot 10^{-6} </math> 
* <math> RPKM (C) = \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43 \cdot 10^{-6} </math> 

Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.

==TPM==
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. 

{| class="wikitable"
|-
! Formel !! Parameter
|-
|<math> TPM = \frac{ c_\text{i}}{L_\text{i}} \cdot \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}} \cdot 10^6 </math> || ci = Anzahl an ausrichtbaren reads für ein Transkript 'i' 
Li = Länge des Transkripts/Gens 'i' in bp 
N = Gesamtanzahl an ausrichtbaren reads in Millionen
|} 
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPMi die Anzahl an Transkripten des Types 'i'. 
'''Beispiel:''' 
[[File:Beispiel Probe.png|Beispiel Probe]] 
*<math> TPM (A) = \frac{ 12}{600} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 402614 </math> 
*<math> TPM (B) = \frac{ 24}{1100} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 439216 </math> 
*<math> TPM (C) = \frac{ 11}{11400} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 158170 </math> 
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.

==TMM==
TMM steht für 'Trimmed mean of M-values normalization method'. 

'''Probleme von RPKM und TPM:''' 
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. 
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden. 
'''Lösung:''' 
→ TMM als Normalisierungsmethode zwischen Proben 
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. 
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden. 
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> W_\text{gk}^\text{k`} = \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}} + \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} </math> || Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' 
Nk = Gesamtanzahl an reads für Probe 'k' 
k' = 2. Probe (Referenz-Bedingung)
|}
'''2. Mittelwert aller Expressionsverhältnisse''' wird berechnet. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> M_\text{gk}^\text{k`} = log_2 \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}} </math> || Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' 
Nk = Gesamtanzahl an reads für Probe 'k' 
k' = 2. Probe (Referenz-Bedingung)
|}
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte. 
<div align="center"> <math> TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} </math></div> 

{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> log_2 (TMM_\text{k}^\text{k`}) = \frac{ \underset {g \in G}{\sum} W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} </math> || <math> M_\text{gk}^\text{k`} = </math> Mittelwerte aller Expressionsverhältnisse 
<math> W_\text{gk}^\text{k`} = </math> Gewichtungsfaktor der Expressionsverhältnisse 
G = Set aller Gene
|}

'''Bedingungen für dieses Verfahren:''' 
* Ygk , Ygk' > 0
* Die oberen und unteren 30 % der <math> M_\text{gk}^\text{k`} </math> Werte werden nicht berücksichtigt
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt

6 Normalisierungen

2019-06-03T20:29:16Z

Vero:

Auf dieser Seite sind die Themen zusammengeführt, die in Vorlesung 5 am 16.05.2019 behandelt wurden.

=Normalisierungen=
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können.
==RPKM==
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> RPKM = \frac{ c_\text{i}}{L_\text{i} \cdot N} </math> || ci = Anzahl an ausrichtbaren reads für ein Transkript 'i' 
Li = Länge des Transkripts/Gens 'i' in kbp 
N = Gesamtanzahl an ausrichtbaren reads in Millionen
|}

<math> \frac{ c_\text{i}}{L_\text{i}} </math> → Normalisierung der Genlänge 
<math> L_\text{i} \cdot N </math> → Normalisierung der Sequenziertiefe 
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. 
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.

'''Beispiel:'''

[[File:Beispiel Probe.png|Beispiel Probe]] 
* <math> RPKM (A) = \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6} </math> 
* <math> RPKM (B) = \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64 \cdot 10^{-6} </math> 
* <math> RPKM (C) = \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43 \cdot 10^{-6} </math> 

Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.

==TPM==
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. 

{| class="wikitable"
|-
! Formel !! Parameter
|-
|<math> TPM = \frac{ c_\text{i}}{L_\text{i}} \cdot \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}} \cdot 10^6 </math> || ci = Anzahl an ausrichtbaren reads für ein Transkript 'i' 
Li = Länge des Transkripts/Gens 'i' in bp 
N = Gesamtanzahl an ausrichtbaren reads in Millionen
|} 
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPMi die Anzahl an Transkripten des Types 'i'. 
'''Beispiel:''' 
[[File:Beispiel Probe.png|Beispiel Probe]] 
*<math> TPM (A) = \frac{ 12}{600} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 402614 </math> 
*<math> TPM (B) = \frac{ 24}{1100} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 439216 </math> 
*<math> TPM (C) = \frac{ 11}{11400} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 158170 </math> 
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.

==TMM==
TMM steht für 'Trimmed mean of M-values normalization method'. 

'''Probleme von RPKM und TPM:''' 
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. 
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden. 
'''Lösung:''' 
→ TMM als Normalisierungsmethode zwischen Proben 
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. 
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.
*Genexpressionen von zwei Proben können miteinander verglichen werden.

<math> M_\text{gk}^\text{k`} = log_2 \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}} </math>

<math> log_2 (TMM_\text{k}^\text{k`}) = \frac{ \underset {g \in G}{\sum} W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} </math>

<math> W_\text{gk}^\text{k`} = \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}} + \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} </math>

'''Der Spaß hier wird morgen erweitert, hab mich nur mit den Formeln vertraut gemacht :D ''' _ Vero

6 Normalisierungen

2019-06-03T19:49:18Z

Vero:

6 Normalisierungen

2019-06-03T17:02:48Z

Vero:

6 Normalisierungen

2019-06-03T16:23:01Z

Vero:

File:Beispiel Probe.png

2019-06-03T16:12:55Z

Vero:

Probe mit Genlängen und Alignment der reads

6 Normalisierungen

2019-06-03T14:27:25Z

Vero:

6 Normalisierungen

2019-05-29T22:47:59Z

Vero:

6 Normalisierungen

2019-05-29T22:04:15Z

Vero:

6 Normalisierungen

2019-05-29T21:59:59Z

Vero: Created page with "Auf dieser Seite sind die Themen zusammengeführt, die in Vorlesung 5 am 16.05.2019 behandelt wurden. =Normalisierungen= Normalisierungen der RNASeq-Daten sind notwendig, um..."

Main Page

2019-05-29T20:28:16Z

Vero:

4 Burrows-Wheeler

2019-05-15T23:37:29Z

Vero:

Auf dieser Seite sind die Themen zusammengeführt, die in Vorlesung 4 am 02.05.2019 behandelt wurden.
 
== Burrows-Wheeler Transformation ==
Die Burrows-Wheeler Induzierung wurde in der Informatik ursprünglich zur Optimierung von Daten-Kompression entwickelt. 
Sie eignet sich auch gut zur effizienten Suche großer Texte und somit zur Suche eines optimalen Alignments. 
 
'''Vorteile''' 
* Sehr schnell und verbraucht wenig Speicher 
* Eine Rücktransformation ist Möglich 
* Kein Informationsverlust beim Sortieren 

=== Transformation ===
Beispiel an der Sequenz T = ACAACG$ 
'''1. Generierung aller cyclischen Verschiebungen von T''' 
Die Sequenz wird cyklisch um eine Stelle verschoben, bis die ursprüngliche Sequenz wieder erreicht ist. 
[[File:BWT.png|thumb|center|Cyklische Rotation]]
In rot ist der 'Suffix-Array' dargestellt.

'''2. Sortierung''' 
Die cyklische Rotation von 'T' wird alphabetisch sortiert, dabei hat das Sonderzeichen (in diesem Fall $) den niedrigsten Wert. 
[[File:Bwt sortierung.png|thumb|center|Alphabetische Sortierung]]
Die letzte Spalte wird als '''Burrows-Wheeler Transformation''' (BWT) bezeichnet. 
ACAACG$ → CC$AAAC 

'''Eigenschaften der BWT :''' 
* Hat die gleiche Länge, wie die Originalsequenz 
* Originalsequenz T kann direkt aus BWT regeneriert werden
'''3. 'Last-First Zuordnung'''' 

Die 'i'te Position des Buchstaben x in der letzten Spalte (Transformation) entspricht der 'i'ten Position in der 1. Spalte 
Benötigt werden nur die erste und letzte Spalte nach der cyklischen Rotation. 
Begonnen wird mit dem ersten Zeichen der BWT, in diesem Fall 'G', dieses stellt das letzte Zeichen der Originalsequenz dar. Da es das 1. 'G' in der Spalte ist, wird auch das 1. 'G' in der ersten Spalte gesucht, das entsprehende Zeichen der letzten Spalte in der gleichen Zeile, ist das vorletzte Zeichen der Originalsequenz. In diesem Fall ist es ''C'.
[[File:Erster_schritt.png|thumb|center|Last-First Zuordnung]]
Da das 'C' das letzte in dieser Spalte ist, wird auch nach dem letzten 'C' in der ersten Spalte gesucht und somit nach dem entsprechenden Zeichen in dieser Zeile. In diesem Fall ist es ein 'A' und dies ist das nächste Zeichen in der Originalsequenz.
[[File:2._Schritt.png|thumb|center|Last-First Zuordnung]]
Nach diesem Schema wird so lange weiter gearbeitet, bis das Sonderzeichen erreicht und die Originalsequenz rekonstruiert ist. 

'''4. Suche nach einer Sequenz in T''' 
In diesem Beispielt wird nach der Sequenz 'AAC' in der Originalsequenz T gesucht. Dafür werden wieder nur die erste und letzte Spalte der alphabetischen Sortierung benötigt. 
Begonnen wird mit der Suche des ersten Zeichens der gesuchten Sequenz 'C', in der ersten Spalte. Das Intervall wird auf die letzte Spalte, der gleichen Zeilen übertragen.
[[File:Suche.png|thumb|center|Suche einer Sequenz]]
Das nächste gesuchte Zeichen ist ein 'A', beide Zeichen des Intervalls stimmen damit überein. Da es das 2. und 3. 'A' in dieser Spalte sind, wird wieder in der ersten Spalte nach den entsprechenden Zeichen gesucht. Das nächste Zeichen der gesuchten Sequenz ist ein 'A', da dieses in den entsprechenden Zeilen nur ein mal vorkommt, wird das Intervall verkleinert und somit so angepasst, dass nur die gesuchten Zeichen darin vorkommen.
[[File:Suche2.png|thumb|center|Suche einer Sequenz]]
Das 'A' ist das 1. 'A' in dieser Spalte, also wird wieder das entsprechende 'A' in der ersten Spalte gesucht, da das Zeichen in der entsprechenden Zeile nicht mehr mit der gesuchten Sequenz übereinstimmt, ist die Suche an dieser Stelle beendet.
[[File:Suche3.png|thumb|center|Suche einer Sequenz]]

Der Suffix-Array an dieser Position ist '2'. Zu diesem wird der Wert 1 zugezählt und ergibt somit 3. Demzufolge beginnt die gesuchte Sequenz an der 3. Position in der Originalsequenz.
[[File:Suche4.png|thumb|center|Suche einer Sequenz]]

Diese Burrows-Wheeler Transformation kann mit jeder beliebigen Sequenz durchgeführt werden und ermöglicht eine effiktive Suche nach einem lokalen Alignment.

4 Burrows-Wheeler

2019-05-15T23:32:11Z

Vero:

Auf dieser Seite sind die Themen zusammengeführt, die in Vorlesung 4 am 02.05.2019 behandelt wurden.
 
== Burrows-Wheeler Transformation ==
Die Burrows-Wheeler Induzierung wurde in der Informatik ursprünglich zur Optimierung von Daten-Kompression entwickelt. 
Sie eignet sich auch gut zur effizienten Suche großer Texte und somit zur Suche eines optimalen Alignments. 
 
'''Vorteile''' 
* Sehr schnell und verbraucht wenig Speicher 
* Eine Rücktransformation ist Möglich 
* Kein Informationsverlust beim Sortieren 

=== Transformation ===
Beispiel an der Sequenz T = ACAACG$ 
'''1. Generierung aller cyclischen Verschiebungen von T''' 
Die Sequenz wird cyklisch um eine Stelle verschoben, bis die ursprüngliche Sequenz wieder erreicht ist. 
[[File:BWT.png|thumb|center|Cyklische Rotation]]
In rot ist die 'Suffix-Array' dargestellt.

'''2. Sortierung''' 
Die cyklische Rotation von 'T' wird alphabetisch sortiert, dabei hat das Sonderzeichen (in diesem Fall $) den niedrigsten Wert. 
[[File:Bwt sortierung.png|thumb|center|Alphabetische Sortierung]]
Die letzte Spalte wird als '''Burrows-Wheeler Transformation''' (BWT) bezeichnet. 
ACAACG$ → CC$AAAC 

'''Eigenschaften der BWT :''' 
* Hat die gleiche Länge, wie die Originalsequenz 
* Originalsequenz T kann direkt aus BWT regeneriert werden
''''3. Last-First Zuordnung'''' 

Die 'i'te Position des Buchstaben x in der letzten Spalte (Transformation) entspricht der 'i'ten Position in der 1. Spalte 
Benötigt werden nur die erste und letzte Spalte nach der cyklischen Rotation. 
Begonnen wird mit dem ersten Zeichen der BWT, in diesem Fall 'G', dieses stellt das letzte Zeichen der Originalsequenz dar. Da es das 1. 'G' in der Spalte ist, wird auch das 1. 'G' in der ersten Spalte gesucht, das entsprehende Zeichen der letzten Spalte in der gleichen Zeile, ist das vorletzte Zeichen der Originalsequenz. In diesem Fall ist es ''C'.
[[File:Erster_schritt.png|thumb|center|Last-First Zuordnung]]
Da das 'C' das letzte in dieser Spalte ist, wird auch nach dem letzten 'C' in der ersten Spalte gesucht und somit nach dem entsprechenden Zeichen in dieser Zeile. In diesem Fall ist es ein 'A' und dies ist das nächste Zeichen in der Originalsequenz.
[[File:2._Schritt.png|thumb|center|Last-First Zuordnung]]
Nach diesem Schema wird so lange weiter gearbeitet, bis das Sonderzeichen erreicht und die Originalsequenz rekonstruiert ist. 

'''4. Suche nach einer Sequenz in T''' 
In diesem Beispielt wird nach der Sequenz 'AAC' in der Originalsequenz T gesucht. Dafür werden wieder nur die erste und letzte Spalte der alphabetischen Sortierung benötigt. 
Begonnen wird mit der Suche des ersten Zeichens der gesuchten Sequenz 'C', in der ersten Spalte. Das Intervall wird auf die letzte Spalte, der gleichen Zeile übertragen.
[[File:Suche.png|thumb|center|Suche einer Sequenz]]
Das nächste gesuchte Zeichen ist ein 'A', beide Zeichen des Intervalls stimmen damit überein, da es das 2. und 3. 'A' in dieser Spalte sind, wird wieder in der ersten Spalte nach den entsprechenden Zahlen gesucht. Das nächste Zeichen der gesuchten Sequenz ist ein 'A', da dieses in den entsprechenden Zeilen nur ein mal vorkommt, wird das Intervall verkleinert und somit angepasst.
[[File:Suche2.png|thumb|center|Suche einer Sequenz]]
Das 'A' ist das 1. 'A' in dieser Spalte, also wird wieder das entsprechende 'A' in der ersten Spalte gesucht, da das Zeichen in der entsprechenden Zeile nicht mehr mit der gesuchten Sequenz übereinstimmt, ist die Suche an dieser Stelle beendet.
[[File:Suche3.png|thumb|center|Suche einer Sequenz]]

Der Suffix-Array an dieser Position ist '2'. Zu diesem wird der Wert 1 zugezählt und ergibt somit 3. Demzufolge beginnt die gesuchte Sequenz an der 3. Position in der Originalsequenz.
[[File:Suche4.png|thumb|center|Suche einer Sequenz]]

Diese Burrows-Wheeler Transformation kann mit jeder beliebigen Sequenz durchgeführt werden und ermöglicht eine effiktive Suche nach einem lokalen Alignment.

4 Burrows-Wheeler

2019-05-15T23:02:22Z

Vero:

4 Burrows-Wheeler

2019-05-15T22:41:30Z

Vero:

4 Burrows-Wheeler

2019-05-15T22:39:15Z

Vero:

File:BWT.png

2019-05-15T22:29:44Z

Vero: Vero uploaded a new version of File:BWT.png

Cyklische Verschiebung von T

4 Burrows-Wheeler

2019-05-15T22:29:18Z

Vero:

File:Bwt Cyklische rotation.png

2019-05-15T22:22:26Z

Vero:

File:Suche4.png

2019-05-15T21:31:57Z

Vero:

Suche einer Sequenz

File:Suche3.png

2019-05-15T21:23:15Z

Vero:

Suche einer Sequenz

File:Suche2.png

2019-05-15T21:15:38Z

Vero:

Suche einer Sequenz

File:Suche.png

2019-05-15T21:06:24Z

Vero:

Suche einer Sequenz

File:2. Schritt.png

2019-05-15T20:48:10Z

Vero:

Last-First Zuordnung

File:Erster schritt.png

2019-05-15T20:42:59Z

Vero:

Last-First Zuordnung