Bioinformatik Wiki - User contributions [en]

6.Normalisierungen

2024-06-11T14:02:25Z

Julbeier: Math Fix

==Aufgabe 1: Grundlagen==
===a: Warum ist es notwendig RNASeq Daten zu normalisieren?===
*Eliminieren von statischen Abweichungen, die durch z.B. verschiedene Durchführungsrunden, unterschiedliche Bedingungen, Laborausstattung, Experimentatoren, … entstehen
* Heterologe Geneigenschaften können zu unterschiedlichen Ergebnissen bei eigentlich gleicher Genexpression führen
* Vergleichbarkeit von Proben ermöglichen

===b: Rolle der Sequenziertiefe und Genlänge===
Die Sequenziertiefen und Genlängen müssen normalisiert werden, um die erhaltenen RNASeq Daten miteinander vergleichen zu können, da diese oft sehr unterschiedlich sind und das die Auswertung beeinflussen kann. So erhält man für längere Gene möglicherweise mehr reads, als für kürzere Gene, obwohl die Genexpression gleich ist. Der Fehlschluss liegt nah, dass das längere Gen stärker exprimiert wird. Bei einer hohen Sequenziertiefe erhält man mehr reads, als bei einer niedrigen Sequenziertiefe. Dabei muss das Verhältnis der erhaltenen reads für ein Gen, zu der Gesamtzahl an reads einer Sequenzierung betrachtet werden. Dies ist durch Normalisierungen möglich.

==Aufgabe 2: RPKM und TPM==
{| class="wikitable center"
|-
! Gen & Genlänge (L) !! Counts (c) Replikat 1 !! Counts (c) Replikat 2
|-
| A (7 kb) || 5 || 16
|-
| B (12 kb) || 10 || 36
|-
| C (0,5 kb) || 2 || 8
|-
| D (25 kb) || 1 || 0
|}
===a: Normalisierung mit RPKM===
* RPKM steht für 'Reads per kilobase of transcript per Million mapped reads'
* Für die Normalisierung wird die Formel <math> RPKM = \frac{ c_\text{i}}{L_\text{i} \cdot N} * 10^6 </math> verwendet.
<math> \frac{ c_\text{i}}{L_\text{i}} </math> → Normalisierung der Genlänge 
<math> L_\text{i} \cdot N </math> → Normalisierung der Sequenziertiefe
'''Beispiel Gen A, Replikat 1:''' 
<math> RPKM (A1) = \frac{ 5}{7 kb \cdot 18} * 10^6 = 3,97 * 10^4</math>
{| class="wikitable center"
|-
! Gen !! RPKM Replikat 1 !! RPKM Replikat 2
|-
| A || 3,97 * 10^4 || 3,81 * 10^4
|-
| B || 4,63 * 10^4 || 5 * 10^4
|-
| C || 2,222 * 10^5 || 2,667 * 10^5
|-
| D || 2,2 * 10^3 || 0
|}
* Ein hoher RPKM Wert, sagt aus, dass die Genexpression stärker ist, als bei einem niedrigeren RPKM Wert, indem die Größe des Gens berücksichtigt wird.
* Zum Vergleich der Genexpression innerhalb einer Probe, können die RPKM Werte genutzt werden, sie sind jedoch nicht dafür geeignet Genexpressionen von Genen verschiedener Proben miteinander zu vergleichen, da die Bedingungen meist sehr unterschiedlich sind und falsche Aussagen über die Genexpressionen gemacht werden können. Die Summe aller RPKMs ergibt nicht 100 % und kann somit keine Anteile am Ganzen widerspiegeln.

===b: Normalisierung mit TPM===
* TPM steht für 'Transcripts per Million.
* Wenn 1 Millionen Transkripte sequenziert werden würden, wäre TPMi die Anzahl an Transkripten des Typs 'i'.
* Bei TPM wird außerdem die totale Anzahl an reads nicht berücksichtigt. 
* Anders, als bei der Normalisierung mit RPKM wird erst die Genlänge und dann die Sequenziertiefe normalisiert.
* TPM berechnet das Verhältnis zwischen den Ergebnissen und die Werte in jeder Spalte ergeben 1 Million.
* Für die Normalisierung wird die Formel <math> TPM = \frac{ c_\text{i}}{L_\text{i}} \cdot \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}} \cdot 10^6 </math> verwendet.
'''Parameter:''' 
ci = Anzahl an ausrichtbaren reads für ein Transkript 'i' 
Li = Länge des Transkripts/Gens 'i' in bp 
N = Gesamtanzahl an ausrichtbaren reads in Millionen 
'''Beispiel Gen A, Replikat 1:''' 
<math> TPM (A1) = \frac{ 5}{7000} \cdot \dfrac {1}{ \dfrac {5}{7000} + \dfrac {10}{12000} + \dfrac {2}{500} + \dfrac {1}{25000}} \cdot 10^6 = 127834 </math> 
{| class="wikitable center"
|-
! Gen !! TPM Replikat 1 !! TPM Replikat 2
|-
| A || 127834 || 107383
|-
| B || 149139 || 140940
|-
| C || 715868 || 751678
|-
| D || 7159 || 0
|}

===c: Anwendungsbereich===
RPKM und TPM werden genutzt um die Expression verschiedener Gene, aus der gleichen Probe, einer RNA Sequenzierung miteinander zu vergleichen. Sie sind also Normalisierungsverfahren innerhalb einer Probe.

==Aufgabe 3: Normalisierung zwischen Proben==
==a: Normalisierungsmethode==
Für die Normalisierung zwischen Proben wird TMM eingesetzt. TMM steht für 'Trimmed mean of M – Values normalization method'.
==b: Wieso wird die Normalisierung bei RNASeq-Proben angewendet?==
* Um das relative RNA-Produktionsniveau aus RNASeq-Daten abzuschätzen
* Es können heterologe Geneigenschaften zwischen 2 Proben auftauchen und eine identische Genexpression, fälschlicherweise, als unterschiedlich erkannt werden
* Beispiel: Expression zwischen gesunden und kranken Patienten soll auf bestimmte Marker untersucht werden

==c. Normalisierung mit TMM==
'''1.''' Der Gewichtungsfaktor für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k' wird bestimmt. Dabei werden kleinere Werte verstärkt und große abgeschwächt. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> W_\text{gk}^\text{k`} = \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}} + \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} </math> || Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' 
Nk = Gesamtanzahl an reads für Probe 'k' 
k' = 2. Probe (Referenz-Bedingung)
|}
'''2.''' Der Mittelwert aller Expressionsverhältnisse wird berechnet. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> M_\text{gk}^\text{k`} = log_2 \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}} </math> || Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' 
Nk = Gesamtanzahl an reads für Probe 'k' 
k' = 2. Probe (Referenz-Bedingung)
|}
'''3.''' Die gewichteten Mittelwerte aller Expressionsverhältnisse werden berechnet. Einsetzen der in 1. und 2. ermittelten Werte. 
<div align="center"> <math> TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} </math></div> 

{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> log_2 (TMM_\text{k}^\text{k`}) = \frac{ \underset {g \in G}{\sum} W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} </math> || <math> M_\text{gk}^\text{k`} = </math> Mittelwerte aller Expressionsverhältnisse 
<math> W_\text{gk}^\text{k`} = </math> Gewichtungsfaktor der Expressionsverhältnisse 
G = Menge aller Gene
|}

'''Bedingungen für dieses Verfahren:''' 
* Ygk , Ygk' > 0
* Die oberen und unteren 30 % der <math> M_\text{gk}^\text{k`} </math> Werte werden nicht berücksichtigt
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt

11 BLAST II

2024-06-11T14:00:18Z

Julbeier: Math Fix

Protein - Protein - BLAST: Liefert eher Ergebnisse, die im Hinblick auf Funktionsebene interessant sind

Dabei wird stets ein E-value zusammen mit dem Ergebnis rausgegeben. Dieses liefert einen Hinweis auf zufälliges Hintergrundrauschen der Suche. Je niedriger de E-value, desto signifikanter ist das Suchergebnis.

Doch wie können nun Ergebnisse einer BLAST Analyse verglichen werden?

Zum Nachlesen von 'E-value' ist das FAQ der BLAST Domain hilfreich: What is the Expect (E) value?
https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=FAQ#expect

== Bewertung von BLAST Ergebnissen ==
Score 'S'
L A S V - E BLOSUM62 gap penalty = -4
L T S L A Q
S = +4 0 +4 +1 -4 +2 = '''7'''

'''Score hängt von der Sequenzlänge, Substitutionsmatrix und 'gap penalty' ab und kann daher nicht direkt verglichen werden'''

Lösung: '''Bit score'''
* log_2 skalierte Version des normalisierten Scores
* Beschreibt die Größe des Such-Raumes, der zufällig einen Treffer mit gleichem oder besseren Score enthält

Ein Bit score von 20 würde bedeuten, dass ein Suchraum der Größe <math>2^{20}</math> durchsucht werden müsste, um den Score zufällig zu finden. (<math>2^{20}</math> = 1.048.576)

<center><math> S' = \frac{\lambda S-ln(k)}{ln(2)}</math></center>

λ und k sind Karlin-Altschul-Parameter und ergeben sich aus der Scoring-Funktion.
Der Suchraum ist definiert als:
N = n * m

'''Parameter''' 
n = Länge der ’query’ Sequenz 
m = Länge der Datenbank

Bsp: n=125 m=10.000 N=1.250.000
In diesem Fall würde ein Bit Score von 20 auch durch Zufall gefunden werden

== P-Value ==
'''P-Value:''' Wahrscheinlichkeit, dass ein Ergebnis durch Zufall eintritt

<math>P = {2^{-S'}}</math>
Beispiel:

Bitscore = 20
<center><math> P = \frac{ 1}{2^{20}}=\frac{ 1}{1.048.576} </math></center>

'''E-Value (Expect):''' P-Value korrigiert für Suchraum der Größe N

<math>
E = \frac{ N}{2^{S'}} = \frac{ m*n}{2^{S'}}
</math>

<math>
E = \frac{ 1.250.000}{1.048.576} = 1,19
</math>

'''Anhaltspunkt:''' E-Value von <math> 10^{-5} </math> bedeutet, dass ein Alignment mit Bitscore x in der Datenbank mit einer Wahrscheinlichkeit von <math> 10^{-5} </math> durch Zufall gefunden würde.

6 Normalisierungen

2024-06-11T13:58:13Z

Julbeier: Rest wird genauso formatiert, damit es gleichmässig aussieht

=Normalisierungen=
Unter Normalisierung versteht man in der Biologie die Verringerung von Verzerrungen innerhalb eines Datensatzes. Systematische Verzerrungen sind z.B. verschiedene Durchführungsrunden, unterschiedliche Bedingungen, Laborausstattung, Experimentatoren ect.
Auch die heterologe Geneigenschaften können zu unterschiedlichen Ergebnissen bei eigentlich gleicher Genexpression führen, wie z.B. Genlänge.
Normalisierungen der RNASeq-Daten sind deshalb notwendig, um diese vergleichen. zu können und die tatsächliche Genexpression quantifizieren zu können.

==RPKM==
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> RPKM = \frac{ c_\text{i}}{L_\text{i} \cdot N} *10^6</math> || ci = Anzahl an ausrichtbaren reads für ein Transkript 'i'
Li = Länge des Transkripts/Gens 'i' in kbp 
N = Gesamtanzahl an ausrichtbaren reads in Millionen
|}

<math>\frac{ c_\text{i}}{L_\text{i}}</math> → Normalisierung der Genlänge 
<math> L_\text{i} \cdot N </math> → Normalisierung der Sequenziertiefe
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. 
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.

'''Beispiel:'''

[[File:Beispiel Probe.png|Beispiel Probe]] 
<math> N=6*10^6 reads </math> 

* <math> RPKM (A) = \frac{12}{0,6 kbp \cdot 6} * 10^6 = 3,33 \cdot 10^{6} </math> 

* <math> RPKM (B) = \frac{24}{1,1 kbp \cdot 6} * 10^6 = 3,64 \cdot 10^{6} </math> 

* <math> RPKM (C) = \frac{11}{1,4 kbp \cdot 6} * 10^6= 1,31 \cdot 10^{6} </math> 

Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.

==TPM==
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. 

{| class="wikitable"
|-
! Formel !! Parameter
|-
|<math> TPM = \frac{ c_\text{i}}{L_\text{i}} \cdot \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}} \cdot 10^6 </math> || ci = Anzahl an ausrichtbaren reads für ein Transkript 'i' 
Li = Länge des Transkripts/Gens 'i' in bp 
N = Gesamtanzahl an ausrichtbaren reads in Millionen
|}
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPMi die Anzahl an Transkripten des Types 'i'. 

'''Beispiel:''' 
[[File:Beispiel Probe.png|Beispiel Probe]] 

*<math> TPM (A) = \frac{ 12}{600} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 402614 </math> 

*<math> TPM (B) = \frac{ 24}{1100} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 439216 </math> 

*<math> TPM (C) = \frac{ 11}{1400} \cdot \dfrac {1}{ \dfrac {12}{600} + \dfrac {24}{1100} + \dfrac {11}{1400}} \cdot 10^6 = 158170 </math> 

Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C. Die Summe der reads ergibt 1 Million.

'''Probleme von RPKM und TPM:'''

Die beiden Methoden sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen.Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.

Lösung: TMM als Normalisierungsmethode zwischen Proben

==TMM==
TMM steht für 'Trimmed mean of M-values normalization method'. 
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen.
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden. 

'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> W_\text{gk}^\text{k`} = \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}} + \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} </math> || Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' 
Nk = Gesamtanzahl an reads für Probe 'k' 
k' = 2. Probe (Referenz-Bedingung)
|}

'''2. Mittelwert aller Expressionsverhältnisse''' wird berechnet. 
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> M_\text{gk}^\text{k`} = log_2 \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}} </math> || Ygk = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' 
Nk = Gesamtanzahl an reads für Probe 'k' 
k' = 2. Probe (Referenz-Bedingung)
|}

'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte. 
<div align="center"> <math> TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} </math></div> 

'''Gesamt:'''
{| class="wikitable"
|-
! Formel !! Parameter
|-
| <math> log_2 (TMM_\text{k}^\text{k`}) = \frac{ \underset {g \in G}{\sum} W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} </math> || <math> M_\text{gk}^\text{k`} = </math> Mittelwerte aller Expressionsverhältnisse 
<math> W_\text{gk}^\text{k`} = </math> Gewichtungsfaktor der Expressionsverhältnisse 
G = Set aller Gene
|}

'''Bedingungen für dieses Verfahren:''' 
* Ygk , Ygk' > 0
* Die oberen und unteren 30 % der <math> M_\text{gk}^\text{k`} </math> Werte werden nicht berücksichtigt
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt

== Beispielrechnung ==
Gen Zustand 1[bp] Zustand 2[bp]
A 200 600
B 600 0
C 800 960
D 400 480

Summe 2000 1680

Folgende Dinge gelten nun:
* TMM braucht immer einen Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen.

* Zuerst normalisiert man die Counts innerhalb der Probe
Ya/N Yb/N 
A <math>\frac{200}{2000}=0,1</math> <math>\frac{240}{1680}=0,143</math> 
B <math>\frac{600}{2000}=0,3</math> <math>\frac{0}{1680}=0</math> 
C <math>\frac{800}{2000}=0,4</math> <math>\frac{960}{1680}=0,571</math> 
D <math>\frac{400}{2000}=0,2</math> <math>\frac{2480}{1680}=0,286</math>

* Mittelwert der Expressionsverhältnisse
Ma/b
A <math>log_{2} \frac{0,143}{0,1}=0,516</math> 
B <math>log_{2} \frac{0}{0,3}= -Inf </math> 
C <math>log_{2} \frac{0,571}{0,4}=0,513</math> 
D <math>log_{2} \frac{0,286}{0,2}=0,516</math> 
*'''kleiner Praxistipp von eurem Admin''': <math>log_{2}</math> ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein.

*Nun kommt der Gewichtungsfaktor ins Spiel
Wa/b
A <math> \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081</math> 
B <math> \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= -Inf </math> 
C <math> \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012</math> 
D <math> \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035</math> 
'''Summe der Gewichtung 0,0128'''

*Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)

A 0,516 * 0,081 = 0,0042
B -
C 0,513 * 0,0012 = 0,0006
D 0,516 * 0,0018 = 0,0018
Summe 0,0066

Nun wird TMM berechnet: 
<math>\frac{\text{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}}{\text{Summe Gewichtungsfaktoren}}=log_{2}(TMM)</math>

<math>\frac{0,0066}{0,0128}=0,51=log_{2}(TMM)</math> 
* Jetzt noch die Formel umsetzen:
<math>log_{2}(TMM)= x</math>
<math>2^{x} = TMM </math>
<math>2^{0,51} = 1,4296 </math>

6 Normalisierungen

2024-06-11T13:55:53Z

Julbeier: Math Fix, welcher aber es hässlicher aussehen lässt.

Test

2024-06-11T13:27:17Z

Julbeier:

v xfsdfsdf

<math>1^3</math>

<math>\frac{200}{2000}=0,1</math> <math>\frac{240}{1680}=0,143</math>

Test

2024-06-11T13:27:06Z

Julbeier:

v xfsdfsdf

<math>1^3</math>

<math>\frac{200}{2000}=0,1</math> <math>\frac{240}{1680}=0,143</math>

Test

2024-06-11T13:26:55Z

Julbeier:

v xfsdfsdf

<math>1^3</math>

A <math>\frac{200}{2000}=0,1</math> <math>\frac{240}{1680}=0,143</math>

6 Normalisierungen

2024-06-11T13:19:21Z

Julbeier:

Test

2024-06-04T09:59:42Z

Julbeier:

v xfsdfsdf

<math>1^3</math>

Test

2024-05-28T15:52:43Z

Julbeier:

v xfsdfsdf

<math> 1^3</math>

Main Page

2023-02-14T11:31:55Z

Julbeier: /* Ansprechpartner */ nko -> Julbeier