<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>http://wiki.bioinfo.nat.tu-bs.de/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Pge</id>
	<title>Bioinformatik Wiki - User contributions [en]</title>
	<link rel="self" type="application/atom+xml" href="http://wiki.bioinfo.nat.tu-bs.de/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Pge"/>
	<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/Special:Contributions/Pge"/>
	<updated>2026-05-28T19:11:55Z</updated>
	<subtitle>User contributions</subtitle>
	<generator>MediaWiki 1.39.7</generator>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=User:Pge&amp;diff=798</id>
		<title>User:Pge</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=User:Pge&amp;diff=798"/>
		<updated>2021-07-15T23:12:02Z</updated>

		<summary type="html">&lt;p&gt;Pge: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Ich update das Bioinformatik Wiki seit SoSe 20 und werde versuchen weiter daran zu arbeiten. Fragen und Input gerne per Mail an philip.gemke@tu-braunschweig.de&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Falls du neuer Admin bist und dich wegen des Wikis mal kurzschließen willst, dann auch gerne einfach melden.&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=9.Biomarker&amp;diff=795</id>
		<title>9.Biomarker</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=9.Biomarker&amp;diff=795"/>
		<updated>2021-02-04T12:35:52Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* Aufgabe 1: Definitionen */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
== Aufgabe 1: Definitionen ==&lt;br /&gt;
&lt;br /&gt;
'''ROC''': Abkürzung für '''R'''eceiver '''O'''perating '''C'''haracteristic. Dies ist eine Methode mit der man Analysemethoden wie z.B. Diagnosealgorithmen optimieren und bewerten kann. Dafür bestimmt man die falschpositiven und falschnegativen Ergebnisse der Analysemethode und bestimmt damit die Sensitivität und Spezifität der Methode. Anschließend wägt man diese gegeneinander ab. Dies geschieht mittels der Grenzwertoptimierungskurve (ROC- Kurve).&lt;br /&gt;
&lt;br /&gt;
'''AUC''': Abkürzung für '''A'''rea '''u'''nder '''C'''urve. Beschreibt die Fläche unter der Kurve die man erhält wenn man Sensitivität gegen 1-Spezifität aufträgt. Der AUC-Wert liegt dabei zwischen 1 und 0. Ein Wert nahe 1 bedeutet dabei dass die Analysemethode wenig falschpositive und falschnegative Werte generiert. Ein Wert nahe 0 bedeutet dass die Analysemethode fast ausschließlich falschpositive und falschnegative Werte generiert. Dies bedeutet, dass der Algothitmus trotzdem funktioniert, man ihn jedoch &amp;quot;umdrehen&amp;quot; muss. Werte um 0,5 herum sind daher die schlechtesten Werte, da diese bedeuten dass die Methode qualitativ so gut ist wie per Zufall zu diagnositizieren.&lt;br /&gt;
&lt;br /&gt;
'''Spezifität''': &amp;lt;math&amp;gt; \frac{True Negatives}{(False Positives+True Negatives)}&amp;lt;/math&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Rate, mit denen die Analysemethode Negativproben korrekt erkennt werden. Idealerweise geht der Werte gegen 1.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Sensitivität''': &amp;lt;math&amp;gt; \frac{True Positives}{(False Negatives+True Positives)}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Rate, mit denen die Analysemethode Positivproben korrekt erkennt werden. Idealerweise geht der Werte gegen 1.&lt;br /&gt;
&lt;br /&gt;
'''logit-Funktion''': eine logistische Funktion, die Analysemethoden verwenden, um mit&lt;br /&gt;
Expressionsleveln von Biomarkern einen Wert zwischen 0 und 1 zu berechnen. Dieser kann dann verwendet werden, um abzuschätzen, ob ein positives oder ein negatives Ergebnis vorliegt. &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;logit(P) = log \frac{P_{X}}{1-P_{X}} = \beta_{1} * TPM_{GenX} + \beta_{0} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
(Zähler=Wahrscheinlichkeit; Nenner=Gegenwahrscheinlichkeit)&lt;br /&gt;
&lt;br /&gt;
'''Threshold''': Cutoff-Wert in der logit-Funktion. Dort trennt der Analysealgrithmus die logit-Funktion.&lt;br /&gt;
&lt;br /&gt;
Alles auf einer Seite wird als positiv bewertet und alles auf der anderen Seite als&lt;br /&gt;
negativ. Ob positiv krank bedeutet, hängt davon ab, ob bei kranken Menschen dieser Biomarker hoch- oder runtereguliert ist.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Anderer Erklärungsansatz: &lt;br /&gt;
*Ein Grenzwert zwischen 2 Konditionen&lt;br /&gt;
*Wird anhand Trainingsdaten justiert&lt;br /&gt;
*Beispiel: krank=1; gesund=0; Threshold=0.5; Alle Werte unter 0.5 sind gesund&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2: Biomarker ==&lt;br /&gt;
&lt;br /&gt;
'''a''': Was ist ein Biomarker und wofür kann er verwendet werden?&lt;br /&gt;
&lt;br /&gt;
Biomarker sind messbare biologische Parameter die eine gewisse Aussagekraft für Diagnose und Prognose haben. Mit der Analyse von Biomarkern kann man bei der Diagnose von Krankheiten bei Menschen helfen. Das Protein Troponin T ist beispielweise der Indikator in der Herzinfarkdiagnostik. Da dieses Protein in Herzmuskeln besonders exprimirt wird und als Konsequenz eines sterbenden Herzmuskels in die Blutbahn gelangt, wird dieser Wert bei Brustbeschwerden als joch signifikant für die weitere Diagnostik oder Therapie angesehen. &lt;br /&gt;
Ein moderner Ansatz in der Bioinformatik wäre bspw. die Genexpression als Biomarker zu verwenden. Möglicherweise könnten so Tumorzellen sicher im Blut detektiert werden, da sich ihre Genexpression von physiologische Zellen deutlich unterscheidet. Eine standardisierte, klinische Anwendung ist bisher jedoch nicht möglich.&lt;br /&gt;
&lt;br /&gt;
'''b''': Beschreiben Sie, wie Biomarker bestimmt werden können.&lt;br /&gt;
&lt;br /&gt;
Einfache Biomarker wie Körpertemperatur und Blutdruck kann man mit einfachen diagnostischen Methoden bestimmen (Fieberthermometer bzw Oberarm-Manometer). &lt;br /&gt;
&lt;br /&gt;
Um Genexpression als Biomarker zu nutzen, kann mit einer RNA-Sequenzierung eine 'verdächtige' Probe mit einer Referenzprobe vergleichen. Die Werte kann man anschließend mit Analysemethoden aufbereiten, und am Besten mit mehreren Biomarkern eine zuverlässigere Vorraussage treffen.&lt;br /&gt;
&lt;br /&gt;
Grundsätzlich liefert die Bioinformatik hier viele Möglichkeiten neue Biomarker in der medizinischen Diagnostik langfristig zu etablieren:&lt;br /&gt;
*Klare Unterschiede zwischen zu untersuchenden Zuständen erkennbar (Bspw: Metabolitlevel - Expressionslevel)&lt;br /&gt;
*Auswertung großer Datensätze mit bioinformatischen Methoden wie 'machine learning'&lt;br /&gt;
*Auf den Patienten hochgradig zugeschnittene Behandlungskonzepte im Sinne von 'individualized medicine'&lt;br /&gt;
&lt;br /&gt;
'''c''': Warum ist ein einzelner Biomarker meistens nicht genug und was ist der Vorteil einer&lt;br /&gt;
Biomarker-Signatur?&lt;br /&gt;
&lt;br /&gt;
Ein Biomarker reicht oft nicht, da die Werte mehr oder weniger um einen Mittelwert streuen. Ein Wert kann also durchaus mal aus Ausreißer jenseits des Thresholdes liegen und ein 'falsch positives' oder 'falsch negatives' Ergebnis erzeugen. Die Signifikanz eines Testes kann durch die Verwendung mehrerer mit der Krankheit assoziierter Biomarker (gennant '''Biomarker-Signatur''') deutlich erhöht werden. Dies erhöht also sowohl die Spezifität als auch die Sensivität.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 3 ==&lt;br /&gt;
&lt;br /&gt;
Aus den ermittelten Metabolitleveln einer imaginären Studie wurde ein logistisches&lt;br /&gt;
Regressionsmodell entworfen. Dieses Modell soll in der Lage sein, an Hand von diesen&lt;br /&gt;
Metabolitleveln eine Vorhersage über den Gesundheitszustand von Patienten zu machen. Bei&lt;br /&gt;
dem Aufstellen des Modells wurde eine 0 als krank und eine 1 als gesund definiert. Folgende&lt;br /&gt;
Ausgaben aus diesem Modell wurden enthalten:&lt;br /&gt;
&lt;br /&gt;
[[File:Biomarker_log_reg.jpeg|700px|center|thumb]]&amp;lt;br /&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Bitte bearbeiten Sie nun folgende Fragestellungen:&lt;br /&gt;
&lt;br /&gt;
'''a''': Was sind FPR, TPR, TNR und FNR? Erklären Sie kurz!&lt;br /&gt;
&lt;br /&gt;
*'''FPR''': '''F'''alse '''P'''ositive '''R'''ate: Rate an Patienten, die gesund sind, aber vom Modell als krank erachtet werden.&lt;br /&gt;
*'''TPR''': '''T'''rue '''P'''ositive '''R'''ate: Rate an Patienten, die krank sind, und vom Modell als krank erachtet werden. &lt;br /&gt;
*'''TNR''': '''T'''rue '''N'''egative '''R'''ate: Rate an Patienten, die gesund sind, und vom Modell als gesund erachtet werden.&lt;br /&gt;
*'''FNR''': '''F'''alse '''N'''egative '''R'''ate: Rate an Patienten, die krank sind, aber vom Modell als gesund erachtet werden.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''TPR = Sensivität'''&lt;br /&gt;
&lt;br /&gt;
'''TNR = Spezifität'''&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
b) Berechnen Sie für die 6 Thresholds 0; 0,2; 0,4; 0,6; 0,8; 1 die Spezifität und die&lt;br /&gt;
Sensitivität des Modells.&lt;br /&gt;
&lt;br /&gt;
[[File:Biomarker_sen_spe.jpeg|700px|center|thumb]]&amp;lt;br /&amp;gt;&lt;br /&gt;
&lt;br /&gt;
c) Welcher dieser Thresholds ist für dieses Modell der Beste? Begründen Sie!&lt;br /&gt;
&lt;br /&gt;
Grundsätzlich sollte ein Threshold gewählt werden, bei dem Sensivität und Spezifität möglichst gegen 1 gehen. Hier besitzt bspw der Threshold von 0.6 den höchsten Wert für die Summe aus Spezifität und Sensivität. &lt;br /&gt;
&lt;br /&gt;
Bei vielen Modellen muss jedoch entschieden werden, ob der Test eher sensibel oder spezifisch sein soll.&lt;br /&gt;
Die passende Threshold hängt also davon ab, welche Krankheit man detektieren möchte. Je schwerwiegender diese ist oder je einfacher die Diagnose nach einem Treffer mit dem Modell, desto eher kann auch eine geringe Spezifität für eine möglichst hohe Sensitivität in Kauf nehmen.&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=7.Hypothesentests&amp;diff=794</id>
		<title>7.Hypothesentests</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=7.Hypothesentests&amp;diff=794"/>
		<updated>2021-02-04T11:52:23Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* Aufgabe 1 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
== Aufgabe 1 ==&lt;br /&gt;
&lt;br /&gt;
'''a''': Was misst ein t-Test und wie wird dieser berechnet? Was bedeutet der p-Wert?&lt;br /&gt;
&lt;br /&gt;
Der t-Test ist eine Methode der statistischen Analyse, bei der man testet ob ein Mittelwert einer Stichprobe von dem Erwartungswert der Grundgesamtheit abhängt. Mit Varianten des t-Tests kann man außerdem in Nullhypothesen(H0) überprüfen, ob zwei oder mehr Stichproben derselben Gesamtheit entspringen oder sich dafür zu signifikant unterscheiden. Der p-Wert ist eine Wahrscheinlichkeit und gibt hierbei das minimale Signifikanzniveau an, bei dem H0 nicht mehr gilt. Der p-Wert ist außerdem die Wahrscheinlichkeit mit der Stichproben zufällig die H0-Hypothese ablehnen.&lt;br /&gt;
&lt;br /&gt;
Für einen t-Test müssen zunächst Mittelwert, Standardabweichung und Freiheitsgrade für alle Stichproben berechnet werden.  &lt;br /&gt;
&lt;br /&gt;
Mittelwert: &amp;lt;math&amp;gt;\bar{x}_{\mathrm{arithm}} = \frac{1}{n} \sum_{i=1}^n{x_i} = \frac{x_1 + x_2 + \dotsb + x_n}{n}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Standardabweichung: &amp;lt;math&amp;gt;\tilde s := +\sqrt{\frac{1}{n} \sum \limits_{i=1}^n\left(x_i-\overline x\right)^2} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Freiheitsgrade: df = n-1&lt;br /&gt;
&lt;br /&gt;
In den Formeln ist &amp;lt;math&amp;gt;\bar{x} &amp;lt;/math&amp;gt; der Mittelwert, &amp;lt;math&amp;gt; x_1 &amp;lt;/math&amp;gt; etc. die einzelnen Werte der Stichprobe und n die Anzahl der Werte einer Stichprobe.&lt;br /&gt;
&lt;br /&gt;
Nachdem man diese Werte bestimmt hat, kann man mit verschiedenen Formeln (da es viele veschiedene t-Tests gibt) den t-Wert berechnen. Hier wird beispielsweise die Formel für den gepoolten Welch-t-test gezeigt: &lt;br /&gt;
:&amp;lt;math&amp;gt;&lt;br /&gt;
t \quad = \quad {\; \overline{x}_1 - \overline{x}_2 \; \over \sqrt{ \; {s_1^2 \over N_1} \; + \; {s_2^2 \over N_2} \quad }}\,&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Der berechnete Wert, wird dann in einer T-Tabelle nachgeschlagen und verglichen. Bevor man einen Wert heraussuchen kann muss ein Signifikanzniveau festgelegt werden, über dem H0 abgelehnt wird, z.B. 0,05. Dann kann man in der Tabelle den Referenz-t-Wert finden und wenn der berechnete t-Wert über dem Referenzwert ist, dann unterscheiden sich die Stichproben signifikant und können nicht als zwei Stichproben aus der gleichen Grundgesamtheit angesehen werden. &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''b''': Wie unterscheiden sich Student‘s t-Test und Welch‘s t-Test?&lt;br /&gt;
&lt;br /&gt;
Students t-Test sollte nur angewendet werden, wenn die Grundgesamtheiten die gleiche Varianz&lt;br /&gt;
aufweisen. Wenn dies der Fall ist, sollte der Welch-Test verwendet werden.&lt;br /&gt;
&lt;br /&gt;
 Student´s t- test    -      Gleiche Varianz der Stichproben&lt;br /&gt;
 Welch´s t- test      -      Ungleiche Varianz der Stichproben&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2 ==&lt;br /&gt;
&lt;br /&gt;
'''a''': Welches statistische Problem tritt auf, wenn man eine statistische Signifikanz zwischen zweiBedingungen für viele Gene testet? &lt;br /&gt;
&lt;br /&gt;
*Je mehr Gene getestet werden, desto größer ist die Chance einen falsch- positiven zu detektieren&lt;br /&gt;
* Der p-Wert muss angeglichen werden um aussagekräftige Ergebnisse zu bekommen (Bsp. BonferroniKorrektur oder Benjamini-Hochberg Prozedur)&lt;br /&gt;
* Beispiel: Bei einem Signifikanzniveau von 5% und 1000 Proben, gibt es rein statistisch die Wahrscheinlichkeit, das 50 Proben fälschlicherweise als signifikant gelten.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''b''': Was sind die Unterschiede zwischen der Prozedur nach Benjamini-Hochberg und der&lt;br /&gt;
Bonferroni-Korrektur?&lt;br /&gt;
&lt;br /&gt;
Bonferroni&lt;br /&gt;
* Statistisch sehr sicher, aber sehr streng&lt;br /&gt;
* Einfach zu berechnen/ programmieren&lt;br /&gt;
* Produziert viele falsch-negative Werte (FN-false negative)&lt;br /&gt;
Benjamini-Hochberg&lt;br /&gt;
* Weniger streng, höhere Chance auf verwertbare Ergebnisse&lt;br /&gt;
* Komplizierter zu programmieren&lt;br /&gt;
* Je kleiner FDR (false discovery rate) gewählt wird, desto näher kommt das Ergebnis an die korrigierten P-Werte von Bonferroni heran&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''c''': Wie funktioniert die Bonferroni-Korrektur?&lt;br /&gt;
&lt;br /&gt;
Zuerst berechnet man den korrigierten p-Wert mit folgender Formel:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt; p_\text{i*}=p_\text{i}*n&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
wobei &amp;lt;math&amp;gt; p_\text{i*}&amp;lt;/math&amp;gt; der korrigierte Wert ist, &lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;p_\text{i}&amp;lt;/math&amp;gt;der p-Wert für Merkmal i und n die Anzahl der Merkmale.&lt;br /&gt;
&lt;br /&gt;
Danach vergleicht man die korrigierten Werte mit dem Signifikanzniveau. Wenn der Wert kleiner ist als das Niveau, dann ist der Wert signifikant. &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''d''': Wie funktioniert die Benjamini-Hochberg Prozedur?&lt;br /&gt;
&lt;br /&gt;
Die Prozedur folgt den folgenden Schritten:&lt;br /&gt;
&lt;br /&gt;
- Sortiere die Merkmale nach den zugehörigen p-Werten aufsteigend. &lt;br /&gt;
&lt;br /&gt;
- Gib jedem p-Wert einen Rang zu (i) &lt;br /&gt;
&lt;br /&gt;
- Berechne für jeden p-Wert den BH kritischen Wert mit folgender Formel: &lt;br /&gt;
&lt;br /&gt;
BH = &amp;lt;math&amp;gt;\frac{i}{n}&amp;lt;/math&amp;gt; * Q wobei i der Rang ist, n die Anzahl der Merkmale (Stichprobenanzahl) und Q die False Discovery Rate&lt;br /&gt;
&lt;br /&gt;
- Vergleiche jeden p-Wert mit seinem kritischen BH-Wert. &lt;br /&gt;
&lt;br /&gt;
- der größte p-Wert der kleiner als der kritische BH Wert ist, ist der Wert ab dem alle p-Werte aufwärts H0 ablehnen, somit signifikant sind. &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''e''':  Bei der Analyse von Metaboliten im Blut von Patienten mit Niereninsuffizienz ist folgende&lt;br /&gt;
Tabelle entstanden. Zeige, welche der nachfolgenden p-Werte der Metabolite nach&lt;br /&gt;
Benjamini-Hochberg als Signifikant angesehen werden können (α = 0,05). Zeige, welche&lt;br /&gt;
Metabolite nach Bonferroni als signifikant angesehen werden können. Beschreibe die&lt;br /&gt;
Unterschiede!&lt;br /&gt;
&lt;br /&gt;
'''Bonferroni-Methode''':&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable sortable&amp;quot;&lt;br /&gt;
! Metabolit !! P !! P*&lt;br /&gt;
|-&lt;br /&gt;
! C-mannosyltryptophan&lt;br /&gt;
| 1.10E-03 || 0.0297&lt;br /&gt;
|-&lt;br /&gt;
! pseudouridine&lt;br /&gt;
| 3.70E-03 || 0.0999&lt;br /&gt;
|-&lt;br /&gt;
! O-sulfo-L-tyrosine&lt;br /&gt;
| 1.40E-02 || 0.378&lt;br /&gt;
|-&lt;br /&gt;
! margarate (17:0)&lt;br /&gt;
| 2.80E-01 || 7.56&lt;br /&gt;
|-&lt;br /&gt;
! erythronate*&lt;br /&gt;
| 2.80E-02 || 0.756&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylalanine&lt;br /&gt;
| 4.00E-02 || 1.08&lt;br /&gt;
|-&lt;br /&gt;
! 4-androsten-3beta,17beta-diol disulfate 2*&lt;br /&gt;
| 5.30E-03 || 0.1431&lt;br /&gt;
|-&lt;br /&gt;
! 10-nonadecenoate (19:1n9)&lt;br /&gt;
| 8.90E-01 || 24.03&lt;br /&gt;
|-&lt;br /&gt;
! 4-acetamidobutanoate&lt;br /&gt;
| 5.30E-02 || 1.431&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylthreonine&lt;br /&gt;
| 2.70E-01 || 7.29&lt;br /&gt;
|-&lt;br /&gt;
! eicosenoate (20:1n9 or 11)&lt;br /&gt;
| 4.80E-01 || 12.96&lt;br /&gt;
|-&lt;br /&gt;
! 15-methylpalmitate (isobar with 2- methylpalmitate)&lt;br /&gt;
| 4.70E-01 || 12.69&lt;br /&gt;
|-&lt;br /&gt;
! N1-methyladenosine&lt;br /&gt;
| 5.50E-02 || 1.485&lt;br /&gt;
|-&lt;br /&gt;
! X - 12092&lt;br /&gt;
| 1.90E-01 || 5.13&lt;br /&gt;
|-&lt;br /&gt;
! X - 12216&lt;br /&gt;
| 1.50E-02 || 0.405&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 4.50E-03 || 0.1215&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 1.30E-01 || 3.51&lt;br /&gt;
|-&lt;br /&gt;
! dihomo-linoleate (20:2n6)&lt;br /&gt;
| 8.60E-01 || 23.22&lt;br /&gt;
|-&lt;br /&gt;
! 1-docosahexaenoylglycerophosphocholine*&lt;br /&gt;
| 3.90E-02 || 1.053&lt;br /&gt;
|-&lt;br /&gt;
! kynurenine&lt;br /&gt;
| 4.60E-02 || 1.242&lt;br /&gt;
|-&lt;br /&gt;
! 5alpha-pregnan-3beta,20alpha-diol disulfate&lt;br /&gt;
| 1.30E-02 || 0.351&lt;br /&gt;
|-&lt;br /&gt;
! erythritol&lt;br /&gt;
| 1.20E-01 || 3.24&lt;br /&gt;
|-&lt;br /&gt;
! homocitrulline&lt;br /&gt;
| 2.50E-01 || 6.75&lt;br /&gt;
|-&lt;br /&gt;
! bradykinin, des-arg(9)&lt;br /&gt;
| 3.20E-01 || 8.64&lt;br /&gt;
|-&lt;br /&gt;
! X - 04494&lt;br /&gt;
| 9.40E-02 || 2.538&lt;br /&gt;
|-&lt;br /&gt;
! linoleate (18:2n6)&lt;br /&gt;
| 8.20E-01 || 22.14&lt;br /&gt;
|-&lt;br /&gt;
! mannose&lt;br /&gt;
| 2.00E-01 || 5.4&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
mit den p-Werten hat man die p*-Werte berechnet und dann mit dem Signifikanzniveau 0.05 verglichen. Der einzig signifikante Wert ist C-mannoysltryptophan.&lt;br /&gt;
&lt;br /&gt;
'''Benjamini-Hochberg Prozedur:'''&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable sortable&amp;quot;&lt;br /&gt;
! Metabolit !! P !! Rang !! BHKW !! Differenz&lt;br /&gt;
|-&lt;br /&gt;
! C-mannosyltryptophan&lt;br /&gt;
| 1.10E-03 || 1 || 0.0019 || -0.0008&lt;br /&gt;
|-&lt;br /&gt;
! pseudouridine&lt;br /&gt;
| 3.70E-03 || 2 || 0.0037 || 0&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 4.50E-03 || 3 || 0.0056 || -0.0011&lt;br /&gt;
|-&lt;br /&gt;
! 4-androsten-3beta,17beta-diol disulfate 2*&lt;br /&gt;
| 5.30E-03 || 4 || 0.0074 || -0.0021&lt;br /&gt;
|-&lt;br /&gt;
! 5alpha-pregnan-3beta,20alpha-diol disulfate&lt;br /&gt;
| 1.30E-02 || 5 || 0.0093 || 0.0037&lt;br /&gt;
|-&lt;br /&gt;
! O-sulfo-L-tyrosine&lt;br /&gt;
| 1.40E-02 || 6 || 0.0111 || 0.0029&lt;br /&gt;
|-&lt;br /&gt;
! X - 12216&lt;br /&gt;
| 1.50E-02 || 7 || 0.013 || 0.002&lt;br /&gt;
|-&lt;br /&gt;
! erythronate*&lt;br /&gt;
| 2.80E-02 || 8 || 0.0148 || 0.0132&lt;br /&gt;
|-&lt;br /&gt;
! 1-docosahexaenoylglycerophosphocholine*&lt;br /&gt;
| 3.90E-02 || 9 || 0.0167 || 0.0223&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylalanine&lt;br /&gt;
| 4.00E-02 || 10 || 0.0185 || 0.0215&lt;br /&gt;
|-&lt;br /&gt;
! kynurenine&lt;br /&gt;
| 4.60E-02 || 11 || 0.0204 || 0.0256&lt;br /&gt;
|-&lt;br /&gt;
! 4-acetamidobutanoate&lt;br /&gt;
| 5.30E-02 || 12 || 0.0222 || 0.0308&lt;br /&gt;
|-&lt;br /&gt;
! N1-methyladenosine&lt;br /&gt;
| 5.50E-02 || 13 || 0.0241 || 0.0309&lt;br /&gt;
|-&lt;br /&gt;
! X - 04494&lt;br /&gt;
| 9.40E-02 || 14 || 0.0259 || 0.0681&lt;br /&gt;
|-&lt;br /&gt;
! erythritol&lt;br /&gt;
| 1.20E-01 || 15 || 0.0278 || 0.0922&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 1.30E-01 || 16 || 0.0296 || 0.1004&lt;br /&gt;
|-&lt;br /&gt;
! X - 12092&lt;br /&gt;
| 1.90E-01 || 17 || 0.0315 || 0.1585&lt;br /&gt;
|-&lt;br /&gt;
! mannose&lt;br /&gt;
| 2.00E-01 || 18 || 0.0333 || 0.1667&lt;br /&gt;
|-&lt;br /&gt;
! homocitrulline&lt;br /&gt;
| 2.50E-01 || 19 || 0.0352 || 0.2148&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylthreonine&lt;br /&gt;
| 2.70E-01 || 20 || 0.037 || 0.233&lt;br /&gt;
|-&lt;br /&gt;
! margarate (17:0)&lt;br /&gt;
| 2.80E-01 || 21 || 0.0389 || 0.2411&lt;br /&gt;
|-&lt;br /&gt;
! bradykinin, des-arg(9)&lt;br /&gt;
| 3.20E-01 || 22 || 0.0407 || 0.2793&lt;br /&gt;
|-&lt;br /&gt;
! 15-methylpalmitate (isobar with 2- methylpalmitate)&lt;br /&gt;
| 4.70E-01 || 23 || 0.0426 || 0.4274&lt;br /&gt;
|-&lt;br /&gt;
! eicosenoate (20:1n9 or 11)&lt;br /&gt;
| 4.80E-01 || 24 || 0.0444 || 0.4356&lt;br /&gt;
|-&lt;br /&gt;
! linoleate (18:2n6)&lt;br /&gt;
| 8.20E-01 || 25 || 0.0463 || 0.7737&lt;br /&gt;
|-&lt;br /&gt;
! dihomo-linoleate (20:2n6)&lt;br /&gt;
| 8.60E-01 || 26 || 0.0481 || 0.8119&lt;br /&gt;
|-&lt;br /&gt;
! 10-nonadecenoate (19:1n9)&lt;br /&gt;
| 8.90E-01 || 27 || 0.05 || 0.84&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
Hier ist der Cutoff bei Rang 4. Dieser Wert und alle darüber sind somit signifikant. &lt;br /&gt;
&lt;br /&gt;
Unterschiede: Durch BH werden deutlich mehr Metabolite als signifikant eingestuft, der Aufwand ist jedoch größer. Bonferroni liefert eindeutige Ergebnisse (signifikante Metabolite von Bonferroni sind immer in den signifikanten Metaboliten von BH enthalten).&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=631</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=631"/>
		<updated>2020-10-06T04:04:09Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* Beispielrechnung zur Veranschaulichung des TMM durch die Wiki-Admins */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Beispielrechnung zur Veranschaulichung des TMM durch die Wiki-Admins==&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer einen Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= Inf &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum Rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': &amp;lt;math&amp;gt;log_{2}&amp;lt;/math&amp;gt; ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
     Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf'&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&lt;br /&gt;
 Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus&lt;br /&gt;
 '''Summe 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Auch hier einfach schonmal direkt die Summe ausrechnen&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Nun braucht man keine Angst mehr zu haben von der Formel mit den ganzen griechischen Buchstaben, weil nur noch eingesetzen werden muss:&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe letzte Rechnung}}{\text{Summe vorletzte Rechung}}=log_{2}(TMM)&amp;lt;/math&amp;gt;  &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}}{\text{Summe Gewichtungsfaktoren}}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{0,0066}{0,0128}=0,51=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
 * Jetzt noch ein alter Mathe-Taschenspielertrick:&lt;br /&gt;
 &amp;lt;math&amp;gt;log_{2}(TMM)= x&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{x} = TMM &amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{0,51} = 1,4296 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=630</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=630"/>
		<updated>2020-10-06T04:02:57Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* Beispielrechnung zur Veranschaulichung des TMM durch die Wiki-Admins */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Beispielrechnung zur Veranschaulichung des TMM durch die Wiki-Admins==&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer einen Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= Inf &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum Rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': &amp;lt;math&amp;gt;log_{2}&amp;lt;/math&amp;gt; ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht Eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
     Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf'&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&lt;br /&gt;
 Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus&lt;br /&gt;
 '''Summe 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Auch hier einfach schonmal direkt die Summe ausrechnen&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Nun braucht man keine Angst mehr zu haben von der Formel mit den ganzen griechischen Buchstaben, weil nur noch eingesetzen werden muss:&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe letzte Rechnung}}{\text{Summe vorletzte Rechung}}=log_{2}(TMM)&amp;lt;/math&amp;gt;  &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}}{\text{Summe Gewichtungsfaktoren}}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{0,0066}{0,0128}=0,51=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
 * Jetzt noch ein alter Mathe-Taschenspielertrick:&lt;br /&gt;
 &amp;lt;math&amp;gt;log_{2}(TMM)= x&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{x} = TMM &amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{0,51} = 1,4296 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=629</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=629"/>
		<updated>2020-10-05T17:38:47Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* Beispielrechnung TMM aus Übung zum Veranschaulichen durch die Wiki-Admins */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Beispielrechnung zur Veranschaulichung des TMM durch die Wiki-Admins==&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer einen Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= {'Inf'} &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum Rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': &amp;lt;math&amp;gt;log_{2}&amp;lt;/math&amp;gt; ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht Eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
     Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf'&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&lt;br /&gt;
 Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus&lt;br /&gt;
 '''Summe 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Auch hier einfach schonmal direkt die Summe ausrechnen&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Nun braucht man keine Angst mehr zu haben von der Formel mit den ganzen griechischen Buchstaben, weil nur noch eingesetzen werden muss:&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe letzte Rechnung}}{\text{Summe vorletzte Rechung}}=log_{2}(TMM)&amp;lt;/math&amp;gt;  &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}}{\text{Summe Gewichtungsfaktoren}}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{0,0066}{0,0128}=0,51=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
 * Jetzt noch ein alter Mathe-Taschenspielertrick:&lt;br /&gt;
 &amp;lt;math&amp;gt;log_{2}(TMM)= x&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{x} = TMM &amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{0,51} = 1,4296 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=628</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=628"/>
		<updated>2020-10-05T17:02:31Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* Beispielrechnung TMM aus Übung zum Veranschaulichen durch die Wiki-Admins */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Beispielrechnung TMM aus Übung zum Veranschaulichen durch die Wiki-Admins==&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer einen Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= {'Inf'} &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum Rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': &amp;lt;math&amp;gt;log_{2}&amp;lt;/math&amp;gt; ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht Eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
     Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf'&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&lt;br /&gt;
 Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus&lt;br /&gt;
 '''Summe 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Auch hier einfach schonmal direkt die Summe ausrechnen&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Nun braucht man keine Angst mehr zu haben von der Formel mit den ganzen griechischen Buchstaben, weil nur noch eingesetzen werden muss:&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe letzte Rechnung}}{\text{Summe vorletzte Rechung}}=log_{2}(TMM)&amp;lt;/math&amp;gt;  &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}}{\text{Summe Gewichtungsfaktoren}}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{0,0066}{0,0128}=0,51=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
 * Jetzt noch ein alter Mathe-Taschenspielertrick:&lt;br /&gt;
 &amp;lt;math&amp;gt;log_{2}(TMM)= x&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{x} = TMM &amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{0,51} = 1,4296 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=627</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=627"/>
		<updated>2020-10-05T17:01:16Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* Beispielrechnung TMM aus Übung zum Veranschaulichen durch die Wiki-Admins */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Beispielrechnung TMM aus Übung zum Veranschaulichen durch die Wiki-Admins==&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer einen Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= {'Inf'} &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': &amp;lt;math&amp;gt;log_{2}&amp;lt;/math&amp;gt; ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht Eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
     Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf'&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&lt;br /&gt;
 Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus&lt;br /&gt;
 '''Summe 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Auch hier einfach schonmal direkt die Summe ausrechnen&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Nun braucht man keine Angst mehr zu haben von der Formel mit den ganzen griechischen Buchstaben, weil nur noch eingesetzen werden muss:&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe letzte Rechnung}}{\text{Summe vorletzte Rechung}}=log_{2}(TMM)&amp;lt;/math&amp;gt;  &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}}{\text{Summe Gewichtungsfaktoren}}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{0,0066}{0,0128}=0,51=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
 * Jetzt noch ein alter Mathe-Taschenspielertrick:&lt;br /&gt;
 &amp;lt;math&amp;gt;log_{2}(TMM)= x&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{x} = TMM &amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{0,51} = 1,4296 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=626</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=626"/>
		<updated>2020-10-05T16:59:56Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* Beispielrechnung TMM aus Übung zum Veranschaulichen durch die Wiki-Admins */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Beispielrechnung TMM aus Übung zum Veranschaulichen durch die Wiki-Admins==&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer einen Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= /text{'Inf'} &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': &amp;lt;math&amp;gt;log_{2}&amp;lt;/math&amp;gt; ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht Eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
     Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf'&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&lt;br /&gt;
 Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus&lt;br /&gt;
 '''Summe 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Auch hier einfach schonmal direkt die Summe ausrechnen&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Nun braucht man keine Angst mehr zu haben von der Formel mit den ganzen griechischen Buchstaben, weil nur noch eingesetzen werden muss:&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe letzte Rechnung}}{\text{Summe vorletzte Rechung}}=log_{2}(TMM)&amp;lt;/math&amp;gt;  &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}}{\text{Summe Gewichtungsfaktoren}}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{0,0066}{0,0128}=0,51=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
 * Jetzt noch ein alter Mathe-Taschenspielertrick:&lt;br /&gt;
 &amp;lt;math&amp;gt;log_{2}(TMM)= x&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{x} = TMM &amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{0,51} = 1,4296 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=625</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=625"/>
		<updated>2020-10-05T16:58:53Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* Beispielrechnung TMM aus Übung zum Veranschaulichen durch die Wiki-Admins */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Beispielrechnung TMM aus Übung zum Veranschaulichen durch die Wiki-Admins==&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer einen Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= 'Inf' &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': &amp;lt;math&amp;gt;log_{2}&amp;lt;/math&amp;gt; ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht Eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
     Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf'&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&lt;br /&gt;
 Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus&lt;br /&gt;
 '''Summe 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Auch hier einfach schonmal direkt die Summe ausrechnen&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Nun braucht man keine Angst mehr zu haben von der Formel mit den ganzen griechischen Buchstaben, weil nur noch eingesetzen werden muss:&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe letzte Rechnung}}{\text{Summe vorletzte Rechung}}=log_{2}(TMM)&amp;lt;/math&amp;gt;  &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}}{\text{Summe Gewichtungsfaktoren}}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{0,0066}{0,0128}=0,51=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
 * Jetzt noch ein alter Mathe-Taschenspielertrick:&lt;br /&gt;
 &amp;lt;math&amp;gt;log_{2}(TMM)= x&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{x} = TMM &amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{0,51} = 1,4296 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=624</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=624"/>
		<updated>2020-10-05T16:58:22Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* Beispielrechnung TMM aus Übung zum Veranschaulichen durch die Wiki-Admins */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Beispielrechnung TMM aus Übung zum Veranschaulichen durch die Wiki-Admins==&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer einen Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= 'Inf' &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': &amp;lt;math&amp;gt;log_{2}&amp;lt;/math&amp;gt; ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht Eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
     Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf'&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&lt;br /&gt;
 Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus&lt;br /&gt;
 '''Summe 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Auch hier einfach schonmal direkt die Summe ausrechnen&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Nun braucht man keine Angst mehr zu haben von der Formel mit den ganzen griechischen Buchstaben, weil nur noch eingesetzen werden muss:&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe letzte Rechnung}}{\text{Summe vorletzte Rechung}}=log_{2}(TMM)&amp;lt;/math&amp;gt;  &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}}{\text{Summe Gewichtungsfaktoren}}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{0,0066}{0,0128}=0,51=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
 * Jetzt noch ein alte Mathe-Taschenspielertrick:&lt;br /&gt;
 &amp;lt;math&amp;gt;log_{2}(TMM)= x&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{x} = TMM &amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{0,51} = 1,4296 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=623</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=623"/>
		<updated>2020-10-05T16:57:35Z</updated>

		<summary type="html">&lt;p&gt;Pge: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Beispielrechnung TMM aus Übung zum Veranschaulichen durch die Wiki-Admins==&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= 'Inf' &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': &amp;lt;math&amp;gt;log_{2}&amp;lt;/math&amp;gt; ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht Eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
     Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf'&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&lt;br /&gt;
 Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus&lt;br /&gt;
 '''Summe 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Auch hier einfach schonmal direkt die Summe ausrechnen&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Nun braucht man keine Angst mehr zu haben von der Formel mit den ganzen griechischen Buchstaben, weil nur noch eingesetzen werden muss:&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe letzte Rechnung}}{\text{Summe vorletzte Rechung}}=log_{2}(TMM)&amp;lt;/math&amp;gt;  &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}}{\text{Summe Gewichtungsfaktoren}}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{0,0066}{0,0128}=0,51=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
 * Jetzt noch ein alte Mathe-Taschenspielertrick:&lt;br /&gt;
 &amp;lt;math&amp;gt;log_{2}(TMM)= x&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{x} = TMM &amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{0,51} = 1,4296 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=622</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=622"/>
		<updated>2020-10-05T16:54:55Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* Beispielrechnung aus Übung zum Veranschaulichen durch die Wiki-Admins */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Beispielrechnung aus Übung zum Veranschaulichen durch die Wiki-Admins==&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= 'Inf' &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': &amp;lt;math&amp;gt;log_{2}&amp;lt;/math&amp;gt; ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht Eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
     Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf'&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&lt;br /&gt;
 Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus&lt;br /&gt;
 '''Summe 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Auch hier einfach schonmal direkt die Summe ausrechnen&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Nun braucht man keine Angst mehr zu haben von der Formel mit den ganzen griechischen Buchstaben, weil nur noch eingesetzen werden muss:&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe letzte Rechnung}}{\text{Summe vorletzte Rechung}}=log_{2}(TMM)&amp;lt;/math&amp;gt;  &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}}{\text{Summe Gewichtungsfaktoren}}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{0,0066}{0,0128}=0,51=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
 * Jetzt noch ein alte Mathe-Taschenspielertrick:&lt;br /&gt;
 &amp;lt;math&amp;gt;log_{2}(TMM)= x&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{x} = TMM &amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{0,51} = 1,4296 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=621</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=621"/>
		<updated>2020-10-05T16:53:57Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* Beispielrechnung aus Übung zum Veranschaulichen durch die Wiki-Admins */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Beispielrechnung aus Übung zum Veranschaulichen durch die Wiki-Admins==&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= 'Inf' &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': &amp;lt;math&amp;gt;log_{2}&amp;lt;/math&amp;gt; ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht Eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
     Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf'&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&lt;br /&gt;
 Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus&lt;br /&gt;
 '''Summe 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Auch hier einfach schonmal direkt die Summe ausrechnen&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Nun braucht man keine Angst mehr zu haben von der Formel mit den ganzen griechischen Buchstaben, weil man nur noch einsetzen muss:&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe letzte Rechnung}}{\text{Summe vorletzte Rechung}}=log_{2}(TMM)&amp;lt;/math&amp;gt;  &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}}{\text{Summe Gewichtungsfaktoren}}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{0,0066}{0,0128}=0,51=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
 * Jetzt noch ein alte Mathe-Taschenspielertrick:&lt;br /&gt;
 &amp;lt;math&amp;gt;log_{2}(TMM)= x&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{x} = TMM &amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{0,51} = 1,4296 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=620</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=620"/>
		<updated>2020-10-05T16:52:36Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* Beispielrechnung aus Übung zum Veranschaulichen durch die Wiki-Admins */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Beispielrechnung aus Übung zum Veranschaulichen durch die Wiki-Admins==&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= 'Inf' &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': &amp;lt;math&amp;gt;log_{2}&amp;lt;/math&amp;gt; ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht Eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
     Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf'&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&lt;br /&gt;
 Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus&lt;br /&gt;
 '''Summe 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Auch hier einfach schonmal direkt die Summe ausrechnen&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Nun braucht man keine Angst mehr zu haben von der Formel am Anfang, weil man nur noch einsetzen muss:&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe letzte Rechnung}}{\text{Summe vorletzte Rechung}}=log_{2}(TMM)&amp;lt;/math&amp;gt;  &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}}{\text{Summe Gewichtungsfaktoren}}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{0,0066}{0,0128}=0,51=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
 * Jetzt noch ein alte Mathe-Taschenspielertrick:&lt;br /&gt;
 &amp;lt;math&amp;gt;log_{2}(TMM)= x&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{x} = TMM &amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{0,51} = 1,4296&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=619</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=619"/>
		<updated>2020-10-05T16:47:36Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* Beispielrechnung aus Übung zum Veranschaulichen durch die Wiki-Admins */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Beispielrechnung aus Übung zum Veranschaulichen durch die Wiki-Admins==&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= 'Inf' &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': &amp;lt;math&amp;gt;log_{2}&amp;lt;/math&amp;gt; ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht Eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
     Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf'&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&lt;br /&gt;
 Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus&lt;br /&gt;
 '''Summe 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Auch hier einfach schonmal direkt die Summe ausrechnen&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Nun braucht man keine Angst mehr zu haben von der Formel am Anfang, weil man nur noch einsetzen muss:&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe letzte Rechnung}}{\text{Summe vorletzte Rechung}}=log_{2}(TMM)&amp;lt;/math&amp;gt;  &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}}{\text{Summe Gewichtungsfaktoren}}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=618</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=618"/>
		<updated>2020-10-05T16:44:51Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* Beispielrechnung aus Übung zum Veranschaulichen durch die Wiki-Admins */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Beispielrechnung aus Übung zum Veranschaulichen durch die Wiki-Admins==&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= 'Inf' &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': &amp;lt;math&amp;gt;log_{2}&amp;lt;/math&amp;gt; ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht Eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
     Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf'&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&lt;br /&gt;
 Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus&lt;br /&gt;
 '''Summe 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Auch hier einfach schonmal direkt die Summe ausrechnen&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Nun braucht man keine Angst mehr zu haben von der Formel am Anfang, weil man nur noch einsetzen muss:&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{Summe letzte Rechnung}{Summe vorletzte Rechung}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}{Summe Gewichtungsfaktoren}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=617</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=617"/>
		<updated>2020-10-05T16:44:05Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* Beispielrechnung aus Übung zum Veranschaulichen durch die Wiki-Admins */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Beispielrechnung aus Übung zum Veranschaulichen durch die Wiki-Admins==&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= 'Inf' &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': &amp;lt;math&amp;gt;log_{2}&amp;lt;/math&amp;gt; ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht Eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
     Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf'&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&lt;br /&gt;
 Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus&lt;br /&gt;
 '''Summe 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Auch hier einfach schonmal direkt die Summe ausrechnen&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Nun braucht man keine Angst mehr zu haben von der Formel am Anfang, weil man nur noch einsetzen muss:&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{Summe letzte Rechnung}{Summe vorletzte Rechung}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}{Summe Gewichtungsfaktoren}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=616</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=616"/>
		<updated>2020-10-05T16:42:34Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* Beispielrechnung aus Übung zum Veranschaulichen durch die Wiki-Admins */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Beispielrechnung aus Übung zum Veranschaulichen durch die Wiki-Admins==&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= 'Inf' &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': log_{2} ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht Eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
     Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf'&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&lt;br /&gt;
 Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus&lt;br /&gt;
 '''Summe 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Auch hier einfach schonmal direkt die Summe ausrechnen&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Nun braucht man keine Angst mehr zu haben von der Formel am Anfang, weil man nur noch einsetzen muss:&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{'Summe letzte Rechnung'}{Summe vorletzte Rechung}=log_{2}(TMM)&lt;br /&gt;
 \frac{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}{Summe Gewichtungsfaktoren}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=615</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=615"/>
		<updated>2020-10-05T16:40:26Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* TMM */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Beispielrechnung aus Übung zum Veranschaulichen durch die Wiki-Admins==&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= 'Inf' &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': log_{2} ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht Eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
     Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf'&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&lt;br /&gt;
 Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus&lt;br /&gt;
 '''Summe 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Auch hier einfach schonmal direkt die Summe ausrechnen&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Nun braucht man keine Angst mehr zu haben von der Formel am Anfang, weil man nur noch einsetzen muss:&lt;br /&gt;
 {| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 '''Zur Veranschaulichung:'''&lt;br /&gt;
 \frac{Summe letzte Rechnung}{Summe vorletzte Rechung}=log_{2}(TMM)&lt;br /&gt;
 \frac{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}{Summe Gewichtungsfaktoren}=log_{2}(TMM)&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=614</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=614"/>
		<updated>2020-10-05T16:37:43Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* TMM */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 '''Beispielrechnung aus Übung zum Veranschaulichen durch die Admins:'''&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= 'Inf' &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': log_{2} ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht Eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
     Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf'&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&lt;br /&gt;
 Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus&lt;br /&gt;
 '''Summe 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Auch hier einfach schonmal direkt die Summe ausrechnen&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Nun braucht man keine Angst mehr zu haben von der Formel am Anfang, weil man nur noch einsetzen muss:&lt;br /&gt;
 {| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 '''Zur Veranschaulichung:'''&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{Summe letzte Rechnung}{Summe vorletzte Rechung}=log_{2}(TMM)&amp;lt;/math&amp;gt; &lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}{Summe Gewichtungsfaktoren}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=613</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=613"/>
		<updated>2020-10-05T16:33:26Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* TMM */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 '''Beispielrechnung aus Übung zum Veranschaulichen durch die Admins:'''&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= 'Inf' &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': log_{2} ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht Eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
     Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= 'Inf'&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&lt;br /&gt;
 Nun tut euch einen Gefallen und rechnet gleich die Summe der Gewichtung aus&lt;br /&gt;
 '''Summe 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Auch hier einfach schonmal direkt die Summe ausrechnen&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Nun braucht man keine Angst mehr zu haben von der Formel am Anfang, weil man nur noch einsetzen muss:&lt;br /&gt;
 &amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=612</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=612"/>
		<updated>2020-10-05T16:16:26Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* TMM */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 '''Beispielrechnung:'''&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 *TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
      Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= 'Inf' &amp;lt;/math&amp;gt; (also infinity, unendlich und damit unmögich zum rechnen)&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=611</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=611"/>
		<updated>2020-10-05T16:12:59Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* TMM */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 '''Beispielrechnung:'''&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 *TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
 Ya/N                         Yb/N&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
  Ma/b                         &lt;br /&gt;
 &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=610</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=610"/>
		<updated>2020-10-05T16:12:01Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* TMM */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 '''Beispielrechnung:'''&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 *TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
 Ya/N                         Yb/N&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Nun kümmern wir uns um den Mittelwert der Expressionsverhältnisse&lt;br /&gt;
  Ma/b                         &lt;br /&gt;
 &amp;lt;math&amp;gt;log_2 \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;                 &lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                &lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                &lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=609</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=609"/>
		<updated>2020-10-05T16:08:04Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* TMM */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 '''Beispielrechnung:'''&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 *TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
 Ya/N                         Yb/N&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=608</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=608"/>
		<updated>2020-10-05T16:05:48Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* TMM */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 '''Beispielrechnung:'''&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 *TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
 Ya/N                                 Yb/N&lt;br /&gt;
 \frac{200}{2000}=0,1                 \frac{240}{1680}=0,143&lt;br /&gt;
 \frac{600}{2000}=0,3                 \frac{0}{1680}=0&lt;br /&gt;
 \frac{800}{2000}=0,4                 \frac{960}{1680}=0,571&lt;br /&gt;
 \frac{400}{2000}=0,2                 \frac{2480}{1680}=0,286&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=607</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=607"/>
		<updated>2020-10-05T16:05:03Z</updated>

		<summary type="html">&lt;p&gt;Pge: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 '''Beispielrechnung:'''&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 *TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
 Ya/N                                 Yb/N&lt;br /&gt;
 &amp;lt;math&amp;gt;   &lt;br /&gt;
 \frac{200}{2000}=0,1                 \frac{240}{1680}=0,143&lt;br /&gt;
 \frac{600}{2000}=0,3                 \frac{0}{1680}=0&lt;br /&gt;
 \frac{800}{2000}=0,4                 \frac{960}{1680}=0,571&lt;br /&gt;
 \frac{400}{2000}=0,2                 \frac{2480}{1680}=0,286&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=606</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=606"/>
		<updated>2020-10-05T16:02:07Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* TMM */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 '''Beispielrechnung:'''&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 *TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
 Y a/N&lt;br /&gt;
 &amp;lt;math&amp;gt;&lt;br /&gt;
 \frac{200}/{2000}=0,1&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=605</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=605"/>
		<updated>2020-10-05T16:01:16Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* TMM */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 '''Beispielrechnung:'''&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 *TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
 Y a/N&lt;br /&gt;
 &amp;lt;math&amp;gt;&lt;br /&gt;
 /frac{200}/{2000}=0,1&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=604</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=604"/>
		<updated>2020-10-05T16:00:21Z</updated>

		<summary type="html">&lt;p&gt;Pge: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 '''Beispielrechnung:'''&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 *TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
 Y a/N&lt;br /&gt;
 &amp;lt;math&amp;gt;&lt;br /&gt;
 /frac{200}{2000}=0,1&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=603</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=603"/>
		<updated>2020-10-05T15:59:56Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* TMM */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 '''Beispielrechnung:'''&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 *TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
 Y a/N&lt;br /&gt;
 &amp;lt;math&amp;gt;&lt;br /&gt;
 frac{200}{2000}=0,1&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=602</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=602"/>
		<updated>2020-10-05T15:59:39Z</updated>

		<summary type="html">&lt;p&gt;Pge: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 '''Beispielrechnung:'''&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 *TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
 Y a/N&lt;br /&gt;
 &amp;lt;math&amp;gt;&lt;br /&gt;
 frac{200}/{2000}=0,1&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=601</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=601"/>
		<updated>2020-10-05T15:57:24Z</updated>

		<summary type="html">&lt;p&gt;Pge: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 '''Beispielrechnung:'''&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 *TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
 Y a/N&lt;br /&gt;
 &amp;lt;math&amp;gt;&lt;br /&gt;
 frac{200/2000}=0,1&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=600</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=600"/>
		<updated>2020-10-05T15:56:46Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* TMM */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 '''Beispielrechnung:'''&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 *TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
 Y a/N&lt;br /&gt;
 &amp;lt;math&amp;gt;&lt;br /&gt;
 {200}/{2000}=0,1&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=599</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=599"/>
		<updated>2020-10-05T15:55:58Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* TMM */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 '''Beispielrechnung:'''&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 *TMM braucht immer ein Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen. Einer Vergleichbarkeit anhand eines Referenzwertes zu schaffen ist sozusagen der Zweck von TMM.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
 Y a/N&lt;br /&gt;
 &amp;lt;math&amp;gt;&lt;br /&gt;
 200/2000=0,1&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=598</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=598"/>
		<updated>2020-10-05T15:47:12Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* TPM */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=597</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=597"/>
		<updated>2020-10-05T15:46:43Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* TPM */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 '''Beispielrechnung:'''&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 *Berechnet gleich die Summe der Counts N, ihr werdet sie brauchen&lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=7.Hypothesentests&amp;diff=596</id>
		<title>7.Hypothesentests</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=7.Hypothesentests&amp;diff=596"/>
		<updated>2020-10-05T10:02:11Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* Aufgabe 2 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
== Aufgabe 1 ==&lt;br /&gt;
&lt;br /&gt;
'''a''': Was misst ein t-Test und wie wird dieser berechnet? Was bedeutet der p-Wert?&lt;br /&gt;
&lt;br /&gt;
Der t-Test ist eine Methode der statistischen Analyse, bei der man testet ob ein Mittelwert einer Stichprobe von dem Erwartungswert der Grundgesamtheit abhängt. Mit Varianten des t-Tests kann man außerdem Nullhypothesen(H0) überprüfen, ob zwei oder mehr Stichproben derselben Gesamtheit entspringen oder sich dafür zu signifikant unterscheiden. Der p-Wert ist eine Wahrscheinlichkeit und gibt hierbei das minimale Signifikanzniveau an, bei dem H0 nicht mehr gilt. Der p-Wert ist außerdem die Wahrscheinlichkeit mit der Stichproben zufällig die H0-Hypothese ablehnen.&lt;br /&gt;
&lt;br /&gt;
Für einen t-Test müssen zunächst Mittelwert, Standardabweichung und Freiheitsgrade für alle Stichproben berechnet werden.  &lt;br /&gt;
&lt;br /&gt;
Mittelwert: &amp;lt;math&amp;gt;\bar{x}_{\mathrm{arithm}} = \frac{1}{n} \sum_{i=1}^n{x_i} = \frac{x_1 + x_2 + \dotsb + x_n}{n}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Standardabweichung: &amp;lt;math&amp;gt;\tilde s := +\sqrt{\frac{1}{n} \sum \limits_{i=1}^n\left(x_i-\overline x\right)^2} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Freiheitsgrade: df = n-1&lt;br /&gt;
&lt;br /&gt;
In den Formeln ist &amp;lt;math&amp;gt;\bar{x} &amp;lt;/math&amp;gt; der Mittelwert, &amp;lt;math&amp;gt; x_1 &amp;lt;/math&amp;gt; etc. die einzelnen Werte der Stichprobe und n die Anzahl der Werte einer Stichprobe.&lt;br /&gt;
&lt;br /&gt;
Nachdem man diese Werte bestimmt hat, kann man mit verschiedenen Formeln (da es viele veschiedene t-Tests gibt) den t-Wert berechnen. Hier wird beispielsweise die Formel für den gepoolten Welch-t-test gezeigt: &lt;br /&gt;
:&amp;lt;math&amp;gt;&lt;br /&gt;
t \quad = \quad {\; \overline{x}_1 - \overline{x}_2 \; \over \sqrt{ \; {s_1^2 \over N_1} \; + \; {s_2^2 \over N_2} \quad }}\,&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Der berechnete Wert, wird dann in einer T-Tabelle nachgeschlagen und verglichen. Bevor man einen Wert heraussuchen kann muss ein Signifikanzniveau festgelegt werden, über dem H0 abgelehnt wird, z.B. 0,05. Dann kann man in der Tabelle den Referenz-t-Wert finden und wenn der berechnete t-Wert über dem Referenzwert ist, dann unterscheiden sich die Stichproben signifikant und können nicht als zwei Stichproben aus der gleichen Grundgesamtheit angesehen werden. &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''b''': Wie unterscheiden sich Student‘s t-Test und Welch‘s t-Test?&lt;br /&gt;
&lt;br /&gt;
Students t-Test sollte nur angewendet werden, wenn die Grundgesamtheiten die gleiche Varianz&lt;br /&gt;
aufweisen. Wenn dies der Fall ist, sollte der Welch-Test verwendet werden.&lt;br /&gt;
&lt;br /&gt;
 Student´s t- test    -      Gleiche Varianz der Stichproben&lt;br /&gt;
 Welch´s t- test      -      Ungleiche Varianz der Stichproben&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2 ==&lt;br /&gt;
&lt;br /&gt;
'''a''': Welches statistische Problem tritt auf, wenn man eine statistische Signifikanz zwischen zwei&lt;br /&gt;
Bedingungen für viele Gene testet? &lt;br /&gt;
&lt;br /&gt;
Problematisch ist, dass sich Fehler 1. Art (auch alpha-Fehler) anhäufen können. Dies tritt auf wenn bei einer Probe H0 wahr ist, jedoch der Test H1 (nicht signifikant bzw falsch) feststellt. Dies ist dem Zufall geschuldet, da manchmal der p-Wert einfach dadurch unter das Signifikanzniveau fallen kann. Um dies zu vermeiden, kann man  das Signifikanzniveau adjustieren. &lt;br /&gt;
&lt;br /&gt;
'''b''': Was sind die Unterschiede zwischen der Prozedur nach Benjamini-Hochberg und der&lt;br /&gt;
Bonferroni-Korrektur?&lt;br /&gt;
&lt;br /&gt;
Bei der Bonferroni Korrektur wird der p-Wert aller Merkmale mit der Anzahl der Merkmale multipliziert, somit normalisiert man den p-Wert auf die Anzahl der Merkmale. Dies ist eine einfach Methode allerdings kann sie zu vielen Fehlern 2. Art führen (falsch negative). &lt;br /&gt;
 statistisch sehr sicher (Goldstandard), aber sehr streng&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Bei der Benjamini-Hochberg Prozedur wird die False Discovery Rate (FDR oder Q) zusätzlich einbezogen. Anschließend werden die Werte sortiert und der kritische Wert wird bestimmt. Alle Werte die einen p-Wert kleiner als den kritischen Wert besitzen werden als signifikant betrachtet. Je kleiner die FDR ist, desto mehr nähern sich die Ergebnisse denen der Bonferroni Korrektur an.&lt;br /&gt;
 valider statistischer Test, weniger false negative&lt;br /&gt;
&lt;br /&gt;
'''c''': Wie funktioniert die Bonferroni-Korrektur?&lt;br /&gt;
&lt;br /&gt;
Zuerst berechnet man den korrigierten p-Wert mit folgender Formel:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt; p_\text{i*}=p_\text{i}*n&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
wobei &amp;lt;math&amp;gt; p_\text{i*}&amp;lt;/math&amp;gt; der korrigierte Wert ist, &lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;p_\text{i}&amp;lt;/math&amp;gt;der p-Wert für Merkmal i und n die Anzahl der Merkmale.&lt;br /&gt;
&lt;br /&gt;
Danach vergleicht man die korrigierten Werte mit dem Signifikanzniveau. Wenn der Wert kleiner ist als das Niveau, dann ist der Wert signifikant. &lt;br /&gt;
&lt;br /&gt;
'''d''': Wie funktioniert die Benjamini-Hochberg Prozedur?&lt;br /&gt;
&lt;br /&gt;
Die Prozedur folgt den folgenden Schritten:&lt;br /&gt;
&lt;br /&gt;
- Sortiere die Merkmale nach den zugehörigen p-Werten aufsteigend. &lt;br /&gt;
&lt;br /&gt;
- Gib jedem p-Wert einen Rang zu (i) &lt;br /&gt;
&lt;br /&gt;
- Berechne für jeden p-Wert den BH kritischen Wert mit folgender Formel: &lt;br /&gt;
&lt;br /&gt;
BH = &amp;lt;math&amp;gt;\frac{i}{n}&amp;lt;/math&amp;gt; * Q wobei i der Rang ist, n die Anzahl der Merkmale (Stichprobenanzahl) und Q die False Discovery Rate&lt;br /&gt;
&lt;br /&gt;
- Vergleiche jeden p-Wert mit seinem kritischen BH-Wert. &lt;br /&gt;
&lt;br /&gt;
- der größte p-Wert der kleiner als der kritische BH Wert ist, ist der Wert ab dem alle p-Werte aufwärts H0 ablehnen, somit signifikant sind. &lt;br /&gt;
&lt;br /&gt;
'''e''':  Bei der Analyse von Metaboliten im Blut von Patienten mit Niereninsuffizienz ist folgende&lt;br /&gt;
Tabelle entstanden. Zeige, welche der nachfolgenden p-Werte der Metabolite nach&lt;br /&gt;
Benjamini-Hochberg als Signifikant angesehen werden können (α = 0,05). Zeige, welche&lt;br /&gt;
Metabolite nach Bonferroni als signifikant angesehen werden können. Beschreibe die&lt;br /&gt;
Unterschiede!&lt;br /&gt;
&lt;br /&gt;
Bonferroni-Methode&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable sortable&amp;quot;&lt;br /&gt;
! Metabolit !! P !! P*&lt;br /&gt;
|-&lt;br /&gt;
! C-mannosyltryptophan&lt;br /&gt;
| 1.10E-03 || 0.0297&lt;br /&gt;
|-&lt;br /&gt;
! pseudouridine&lt;br /&gt;
| 3.70E-03 || 0.0999&lt;br /&gt;
|-&lt;br /&gt;
! O-sulfo-L-tyrosine&lt;br /&gt;
| 1.40E-02 || 0.378&lt;br /&gt;
|-&lt;br /&gt;
! margarate (17:0)&lt;br /&gt;
| 2.80E-01 || 7.56&lt;br /&gt;
|-&lt;br /&gt;
! erythronate*&lt;br /&gt;
| 2.80E-02 || 0.756&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylalanine&lt;br /&gt;
| 4.00E-02 || 1.08&lt;br /&gt;
|-&lt;br /&gt;
! 4-androsten-3beta,17beta-diol disulfate 2*&lt;br /&gt;
| 5.30E-03 || 0.1431&lt;br /&gt;
|-&lt;br /&gt;
! 10-nonadecenoate (19:1n9)&lt;br /&gt;
| 8.90E-01 || 24.03&lt;br /&gt;
|-&lt;br /&gt;
! 4-acetamidobutanoate&lt;br /&gt;
| 5.30E-02 || 1.431&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylthreonine&lt;br /&gt;
| 2.70E-01 || 7.29&lt;br /&gt;
|-&lt;br /&gt;
! eicosenoate (20:1n9 or 11)&lt;br /&gt;
| 4.80E-01 || 12.96&lt;br /&gt;
|-&lt;br /&gt;
! 15-methylpalmitate (isobar with 2- methylpalmitate)&lt;br /&gt;
| 4.70E-01 || 12.69&lt;br /&gt;
|-&lt;br /&gt;
! N1-methyladenosine&lt;br /&gt;
| 5.50E-02 || 1.485&lt;br /&gt;
|-&lt;br /&gt;
! X - 12092&lt;br /&gt;
| 1.90E-01 || 5.13&lt;br /&gt;
|-&lt;br /&gt;
! X - 12216&lt;br /&gt;
| 1.50E-02 || 0.405&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 4.50E-03 || 0.1215&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 1.30E-01 || 3.51&lt;br /&gt;
|-&lt;br /&gt;
! dihomo-linoleate (20:2n6)&lt;br /&gt;
| 8.60E-01 || 23.22&lt;br /&gt;
|-&lt;br /&gt;
! 1-docosahexaenoylglycerophosphocholine*&lt;br /&gt;
| 3.90E-02 || 1.053&lt;br /&gt;
|-&lt;br /&gt;
! kynurenine&lt;br /&gt;
| 4.60E-02 || 1.242&lt;br /&gt;
|-&lt;br /&gt;
! 5alpha-pregnan-3beta,20alpha-diol disulfate&lt;br /&gt;
| 1.30E-02 || 0.351&lt;br /&gt;
|-&lt;br /&gt;
! erythritol&lt;br /&gt;
| 1.20E-01 || 3.24&lt;br /&gt;
|-&lt;br /&gt;
! homocitrulline&lt;br /&gt;
| 2.50E-01 || 6.75&lt;br /&gt;
|-&lt;br /&gt;
! bradykinin, des-arg(9)&lt;br /&gt;
| 3.20E-01 || 8.64&lt;br /&gt;
|-&lt;br /&gt;
! X - 04494&lt;br /&gt;
| 9.40E-02 || 2.538&lt;br /&gt;
|-&lt;br /&gt;
! linoleate (18:2n6)&lt;br /&gt;
| 8.20E-01 || 22.14&lt;br /&gt;
|-&lt;br /&gt;
! mannose&lt;br /&gt;
| 2.00E-01 || 5.4&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
mit den p-Werten hat man die p*-Werte berechnet und dann mit dem Signifikanzniveau 0.05 verglichen. Der einzig signifikante Wert ist C-mannoysltryptophan.&lt;br /&gt;
&lt;br /&gt;
Benjamini-Hochberg Prozedur:&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable sortable&amp;quot;&lt;br /&gt;
! Metabolit !! P !! Rang !! BHKW !! Differenz&lt;br /&gt;
|-&lt;br /&gt;
! C-mannosyltryptophan&lt;br /&gt;
| 1.10E-03 || 1 || 0.0019 || -0.0008&lt;br /&gt;
|-&lt;br /&gt;
! pseudouridine&lt;br /&gt;
| 3.70E-03 || 2 || 0.0037 || 0&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 4.50E-03 || 3 || 0.0056 || -0.0011&lt;br /&gt;
|-&lt;br /&gt;
! 4-androsten-3beta,17beta-diol disulfate 2*&lt;br /&gt;
| 5.30E-03 || 4 || 0.0074 || -0.0021&lt;br /&gt;
|-&lt;br /&gt;
! 5alpha-pregnan-3beta,20alpha-diol disulfate&lt;br /&gt;
| 1.30E-02 || 5 || 0.0093 || 0.0037&lt;br /&gt;
|-&lt;br /&gt;
! O-sulfo-L-tyrosine&lt;br /&gt;
| 1.40E-02 || 6 || 0.0111 || 0.0029&lt;br /&gt;
|-&lt;br /&gt;
! X - 12216&lt;br /&gt;
| 1.50E-02 || 7 || 0.013 || 0.002&lt;br /&gt;
|-&lt;br /&gt;
! erythronate*&lt;br /&gt;
| 2.80E-02 || 8 || 0.0148 || 0.0132&lt;br /&gt;
|-&lt;br /&gt;
! 1-docosahexaenoylglycerophosphocholine*&lt;br /&gt;
| 3.90E-02 || 9 || 0.0167 || 0.0223&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylalanine&lt;br /&gt;
| 4.00E-02 || 10 || 0.0185 || 0.0215&lt;br /&gt;
|-&lt;br /&gt;
! kynurenine&lt;br /&gt;
| 4.60E-02 || 11 || 0.0204 || 0.0256&lt;br /&gt;
|-&lt;br /&gt;
! 4-acetamidobutanoate&lt;br /&gt;
| 5.30E-02 || 12 || 0.0222 || 0.0308&lt;br /&gt;
|-&lt;br /&gt;
! N1-methyladenosine&lt;br /&gt;
| 5.50E-02 || 13 || 0.0241 || 0.0309&lt;br /&gt;
|-&lt;br /&gt;
! X - 04494&lt;br /&gt;
| 9.40E-02 || 14 || 0.0259 || 0.0681&lt;br /&gt;
|-&lt;br /&gt;
! erythritol&lt;br /&gt;
| 1.20E-01 || 15 || 0.0278 || 0.0922&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 1.30E-01 || 16 || 0.0296 || 0.1004&lt;br /&gt;
|-&lt;br /&gt;
! X - 12092&lt;br /&gt;
| 1.90E-01 || 17 || 0.0315 || 0.1585&lt;br /&gt;
|-&lt;br /&gt;
! mannose&lt;br /&gt;
| 2.00E-01 || 18 || 0.0333 || 0.1667&lt;br /&gt;
|-&lt;br /&gt;
! homocitrulline&lt;br /&gt;
| 2.50E-01 || 19 || 0.0352 || 0.2148&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylthreonine&lt;br /&gt;
| 2.70E-01 || 20 || 0.037 || 0.233&lt;br /&gt;
|-&lt;br /&gt;
! margarate (17:0)&lt;br /&gt;
| 2.80E-01 || 21 || 0.0389 || 0.2411&lt;br /&gt;
|-&lt;br /&gt;
! bradykinin, des-arg(9)&lt;br /&gt;
| 3.20E-01 || 22 || 0.0407 || 0.2793&lt;br /&gt;
|-&lt;br /&gt;
! 15-methylpalmitate (isobar with 2- methylpalmitate)&lt;br /&gt;
| 4.70E-01 || 23 || 0.0426 || 0.4274&lt;br /&gt;
|-&lt;br /&gt;
! eicosenoate (20:1n9 or 11)&lt;br /&gt;
| 4.80E-01 || 24 || 0.0444 || 0.4356&lt;br /&gt;
|-&lt;br /&gt;
! linoleate (18:2n6)&lt;br /&gt;
| 8.20E-01 || 25 || 0.0463 || 0.7737&lt;br /&gt;
|-&lt;br /&gt;
! dihomo-linoleate (20:2n6)&lt;br /&gt;
| 8.60E-01 || 26 || 0.0481 || 0.8119&lt;br /&gt;
|-&lt;br /&gt;
! 10-nonadecenoate (19:1n9)&lt;br /&gt;
| 8.90E-01 || 27 || 0.05 || 0.84&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
Hier ist der Cutoff bei Rang 4. Dieser Wert und alle darüber sind somit signifikant.&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6.Normalisierungen&amp;diff=595</id>
		<title>6.Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6.Normalisierungen&amp;diff=595"/>
		<updated>2020-10-05T09:58:10Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* b: Rolle der Sequenziertiefe und Genlänge */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==Aufgabe 1: Grundlagen== &lt;br /&gt;
===a:  Warum ist es notwendig RNASeq Daten zu normalisieren?=== &lt;br /&gt;
Die Normalisierung von RNASeq Daten ist notwendig, um die Genexpression quantifizieren zu können und diese von verschiedenen Genen miteinander vergleichen zu können. Da die erhaltenen Daten meist sehr unterschiedlich sind, aufgrund verschiedener Genlängen und Sequenziertiefen etc., müssen diese erst durch die Normalisierungen aneinander angeglichen werden, um einen aussagekräftigen Vergleich möglich zu machen. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===b: Rolle der Sequenziertiefe und Genlänge===&lt;br /&gt;
Die Sequenziertiefen und Genlängen müssen normalisiert werden, um die erhaltenen RNASeq Daten miteinander vergleichen zu können, da diese oft sehr unterschiedlich sind und das die Auswertung beeinflussen kann. So erhält man für längere Gene möglicherweise mehr reads, als für kürzere Gene, obwohl die Genexpression gleich ist. Der Fehlschluss liegt nah, dass das längere Gen stärker exprimiert wird. Bei einer hohen Sequenziertiefe erhält man mehr reads, als bei einer niedrigen Sequenziertiefe. Dabei muss das Verhältnis der erhaltenen reads für ein Gen, zu der Gesamtzahl an reads einer Sequenzierung betrachtet werden. Dies ist durch Normalisierungen möglich.&lt;br /&gt;
&lt;br /&gt;
==Aufgabe 2: RPKM und TPM==&lt;br /&gt;
{| class=&amp;quot;wikitable center&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Gen &amp;amp; Genlänge (L) !! Counts (c) Replikat 1 !! Counts (c) Replikat 2&lt;br /&gt;
|-&lt;br /&gt;
| A (7 kb) || 5 || 16&lt;br /&gt;
|-&lt;br /&gt;
| B (12 kb) || 10 || 36&lt;br /&gt;
|-&lt;br /&gt;
| C (0,5 kb) || 2 || 8&lt;br /&gt;
|-&lt;br /&gt;
| D (25 kb) || 1 || 0&lt;br /&gt;
|}&lt;br /&gt;
===a: Normalisierung mit RPKM===&lt;br /&gt;
* RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' &lt;br /&gt;
* Für die Normalisierung wird die Formel &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; verwendet.&lt;br /&gt;
'''Parameter:''' &amp;lt;br&amp;gt;&lt;br /&gt;
c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
'''In dieser Aufgabe:'''&amp;lt;br&amp;gt;&lt;br /&gt;
c = siehe Tabelle &amp;lt;br&amp;gt;&lt;br /&gt;
L = siehe Tabelle &amp;lt;br&amp;gt;&lt;br /&gt;
N (Replikat 1) = 18 | N (Replikat 2) = 60 &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel Gen A, Replikat 1:''' &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt; RPKM (A1) =  \frac{ 5}{7 kb \cdot 18} = 0,0397 &amp;lt;/math&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable center&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Gen !! RPKM Replikat 1 !! RPKM Replikat 2&lt;br /&gt;
|-&lt;br /&gt;
| A || 0,0397 || 0,0381&lt;br /&gt;
|-&lt;br /&gt;
| B || 0,0463 || 0,05&lt;br /&gt;
|-&lt;br /&gt;
| C || 0,2222 || 0,2667&lt;br /&gt;
|-&lt;br /&gt;
| D || 0,0022 || 0&lt;br /&gt;
|}&lt;br /&gt;
* Ein hoher RPKM Wert, sagt aus, dass die Genexpression stärker ist, als bei einem niedrigeren RPKM Wert, indem die Größe des Gens berücksichtigt wird. &lt;br /&gt;
* Zum Vergleich der Genexpression innerhalb einer Probe, können die RPKM Werte gut genutzt werden, sie sind jedoch nicht dafür geeignet Genexpressionen von Genen verschiedener Proben miteinander zu vergleichen, da die Bedingungen meist sehr unterschiedlich sind und falsche Aussagen über die Genexpressionen gemacht werden können.&lt;br /&gt;
&lt;br /&gt;
===b: Normalisierung mit TPM===&lt;br /&gt;
* TPM steht für 'Transcripts per Million. &lt;br /&gt;
* Wenn 1 Millionen Transkripte sequenziert werden würden, wäre TPMi die Anzahl an Transkripten des Typs 'i'.&lt;br /&gt;
* Im Gegensatz zu RPKM wird L in Basenpaaren, statt in Kilobasenpaaren, angegeben. Bei TPM wird außerdem die totale Anzahl an reads nicht berücksichtigt.&amp;lt;br&amp;gt;&lt;br /&gt;
* Anders, als bei der Normalisierung mit RPKM wird erst die Genlänge und dann die Sequenziertiefe normalisiert. &lt;br /&gt;
* TPM berechnet das Verhältnis zwischen den Ergebnissen und die Werte in jeder Spalte ergeben die gleichen Summe. Dies ist bei RPKM nicht immer der Fall, weswegen die Verwendung von TPM bei entsprechender Fragestellung von Vorteil sein kann.&lt;br /&gt;
* Für die Normalisierung wird die Formel &amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; verwendet.&lt;br /&gt;
'''Parameter:''' &amp;lt;br&amp;gt;&lt;br /&gt;
c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel Gen A, Replikat 1:''' &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  TPM (A1) =  \frac{ 5}{7000}  \cdot  \dfrac {1}{ \dfrac {5}{7000} +  \dfrac {10}{12000} +  \dfrac {2}{500} + \dfrac {1}{25000}}  \cdot 10^6  = 127834 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable center&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Gen !! TPM Replikat 1 !! TPM Replikat 2&lt;br /&gt;
|-&lt;br /&gt;
| A || 127834 || 107383&lt;br /&gt;
|-&lt;br /&gt;
| B || 149139 || 140940&lt;br /&gt;
|-&lt;br /&gt;
| C || 715868 || 751678&lt;br /&gt;
|-&lt;br /&gt;
| D || 7159 || 0&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
===c: Anwendungsbereich===&lt;br /&gt;
RPKM und TPM werden genutzt um die Expression verschiedener Gene, aus der gleichen Probe, einer RNA Sequenzierung miteinander zu vergleichen. Sie sind also Normalisierungsverfahren innerhalb eines Experiments.&lt;br /&gt;
&lt;br /&gt;
==Aufgabe 3: Normalisierung zwischen Proben==&lt;br /&gt;
==a: Normalisierungsmethode==&lt;br /&gt;
Für die Normalisierung zwischen Proben wird TMM eingesetzt. TMM steht für 'Trimmed mean of M – Values normalization method'.&lt;br /&gt;
==b: Wieso wird die Normalisierung bei RNASeq-Proben angewendet?==&lt;br /&gt;
TMM wird für die Normalisierung von RNASeq-Daten angewendet, um die Expression eines Gens unter verschiedenen Bedingungen zu vergleichen (Bspw, ob es in Krebszellen stärker oder schwächer exprimiert wird als in gesunden Zellen)&lt;br /&gt;
&lt;br /&gt;
==c. Normalisierung mit TMM==&lt;br /&gt;
'''1.''' Der Gewichtungsfaktor für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k' wird bestimmt. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2.''' Der Mittelwert aller Expressionsverhältnisse wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3.''' Die gewichteten Mittelwerte aller Expressionsverhältnisse werden berechnet. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6.Normalisierungen&amp;diff=594</id>
		<title>6.Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6.Normalisierungen&amp;diff=594"/>
		<updated>2020-10-05T01:00:23Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* b: Wieso wird die Normalisierung bei RNASeq-Proben angewendet? */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==Aufgabe 1: Grundlagen== &lt;br /&gt;
===a:  Warum ist es notwendig RNASeq Daten zu normalisieren?=== &lt;br /&gt;
Die Normalisierung von RNASeq Daten ist notwendig, um die Genexpression quantifizieren zu können und diese von verschiedenen Genen miteinander vergleichen zu können. Da die erhaltenen Daten meist sehr unterschiedlich sind, aufgrund verschiedener Genlängen und Sequenziertiefen etc., müssen diese erst durch die Normalisierungen aneinander angeglichen werden, um einen aussagekräftigen Vergleich möglich zu machen. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===b: Rolle der Sequenziertiefe und Genlänge===&lt;br /&gt;
Die Sequenziertiefen und Genlängen müssen normalisiert werden, um die erhaltenen RNASeq Daten miteinander vergleichen zu können, da diese oft sehr unterschiedlich sind und das die Auswertung beeinflussen kann. So erhält man für längere Gene möglicherweise mehr reads, als für kürzere Gene, obwohl die Genexpression gleich ist, würde man da fälschlicherweise annehmen, dass das längere Gen stärker exprimiert wird. Bei einer hohen Sequenziertiefe erhält man mehr reads, als bei einer niedrigen Sequenziertiefe, dabei muss das Verhältnis der erhaltenen reads für ein Gen, zu der Gesamtzahl an reads einer Sequenzierung beachtet werden. Dies ist durch Normalisierungen möglich.&lt;br /&gt;
&lt;br /&gt;
==Aufgabe 2: RPKM und TPM==&lt;br /&gt;
{| class=&amp;quot;wikitable center&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Gen &amp;amp; Genlänge (L) !! Counts (c) Replikat 1 !! Counts (c) Replikat 2&lt;br /&gt;
|-&lt;br /&gt;
| A (7 kb) || 5 || 16&lt;br /&gt;
|-&lt;br /&gt;
| B (12 kb) || 10 || 36&lt;br /&gt;
|-&lt;br /&gt;
| C (0,5 kb) || 2 || 8&lt;br /&gt;
|-&lt;br /&gt;
| D (25 kb) || 1 || 0&lt;br /&gt;
|}&lt;br /&gt;
===a: Normalisierung mit RPKM===&lt;br /&gt;
* RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' &lt;br /&gt;
* Für die Normalisierung wird die Formel &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; verwendet.&lt;br /&gt;
'''Parameter:''' &amp;lt;br&amp;gt;&lt;br /&gt;
c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
'''In dieser Aufgabe:'''&amp;lt;br&amp;gt;&lt;br /&gt;
c = siehe Tabelle &amp;lt;br&amp;gt;&lt;br /&gt;
L = siehe Tabelle &amp;lt;br&amp;gt;&lt;br /&gt;
N (Replikat 1) = 18 | N (Replikat 2) = 60 &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel Gen A, Replikat 1:''' &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt; RPKM (A1) =  \frac{ 5}{7 kb \cdot 18} = 0,0397 &amp;lt;/math&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable center&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Gen !! RPKM Replikat 1 !! RPKM Replikat 2&lt;br /&gt;
|-&lt;br /&gt;
| A || 0,0397 || 0,0381&lt;br /&gt;
|-&lt;br /&gt;
| B || 0,0463 || 0,05&lt;br /&gt;
|-&lt;br /&gt;
| C || 0,2222 || 0,2667&lt;br /&gt;
|-&lt;br /&gt;
| D || 0,0022 || 0&lt;br /&gt;
|}&lt;br /&gt;
* Ein hoher RPKM Wert, sagt aus, dass die Genexpression stärker ist, als bei einem niedrigeren RPKM Wert, indem die Größe des Gens berücksichtigt wird. &lt;br /&gt;
* Zum Vergleich der Genexpression innerhalb einer Probe, können die RPKM Werte gut genutzt werden, sie sind jedoch nicht dafür geeignet Genexpressionen von Genen verschiedener Proben miteinander zu vergleichen, da die Bedingungen meist sehr unterschiedlich sind und falsche Aussagen über die Genexpressionen gemacht werden können.&lt;br /&gt;
&lt;br /&gt;
===b: Normalisierung mit TPM===&lt;br /&gt;
* TPM steht für 'Transcripts per Million. &lt;br /&gt;
* Wenn 1 Millionen Transkripte sequenziert werden würden, wäre TPMi die Anzahl an Transkripten des Typs 'i'.&lt;br /&gt;
* Im Gegensatz zu RPKM wird L in Basenpaaren, statt in Kilobasenpaaren, angegeben. Bei TPM wird außerdem die totale Anzahl an reads nicht berücksichtigt.&amp;lt;br&amp;gt;&lt;br /&gt;
* Anders, als bei der Normalisierung mit RPKM wird erst die Genlänge und dann die Sequenziertiefe normalisiert. &lt;br /&gt;
* TPM berechnet das Verhältnis zwischen den Ergebnissen und die Werte in jeder Spalte ergeben die gleichen Summe. Dies ist bei RPKM nicht immer der Fall, weswegen die Verwendung von TPM bei entsprechender Fragestellung von Vorteil sein kann.&lt;br /&gt;
* Für die Normalisierung wird die Formel &amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; verwendet.&lt;br /&gt;
'''Parameter:''' &amp;lt;br&amp;gt;&lt;br /&gt;
c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel Gen A, Replikat 1:''' &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  TPM (A1) =  \frac{ 5}{7000}  \cdot  \dfrac {1}{ \dfrac {5}{7000} +  \dfrac {10}{12000} +  \dfrac {2}{500} + \dfrac {1}{25000}}  \cdot 10^6  = 127834 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable center&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Gen !! TPM Replikat 1 !! TPM Replikat 2&lt;br /&gt;
|-&lt;br /&gt;
| A || 127834 || 107383&lt;br /&gt;
|-&lt;br /&gt;
| B || 149139 || 140940&lt;br /&gt;
|-&lt;br /&gt;
| C || 715868 || 751678&lt;br /&gt;
|-&lt;br /&gt;
| D || 7159 || 0&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
===c: Anwendungsbereich===&lt;br /&gt;
RPKM und TPM werden genutzt um die Expression verschiedener Gene, aus der gleichen Probe, einer RNA Sequenzierung miteinander zu vergleichen. Sie sind also Normalisierungsverfahren innerhalb eines Experiments.&lt;br /&gt;
&lt;br /&gt;
==Aufgabe 3: Normalisierung zwischen Proben==&lt;br /&gt;
==a: Normalisierungsmethode==&lt;br /&gt;
Für die Normalisierung zwischen Proben wird TMM eingesetzt. TMM steht für 'Trimmed mean of M – Values normalization method'.&lt;br /&gt;
==b: Wieso wird die Normalisierung bei RNASeq-Proben angewendet?==&lt;br /&gt;
TMM wird für die Normalisierung von RNASeq-Daten angewendet, um die Expression eines Gens unter verschiedenen Bedingungen zu vergleichen (Bspw, ob es in Krebszellen stärker oder schwächer exprimiert wird als in gesunden Zellen)&lt;br /&gt;
&lt;br /&gt;
==c. Normalisierung mit TMM==&lt;br /&gt;
'''1.''' Der Gewichtungsfaktor für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k' wird bestimmt. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2.''' Der Mittelwert aller Expressionsverhältnisse wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3.''' Die gewichteten Mittelwerte aller Expressionsverhältnisse werden berechnet. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=593</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=593"/>
		<updated>2020-10-05T00:52:52Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* RPKM */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=592</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=592"/>
		<updated>2020-10-05T00:52:02Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* TPM */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind notwendig, um diese vergleichbar machen zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &amp;lt;br&amp;gt;&lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{12}{1,4 kbp \cdot 6 \cdot 10^6} = 1,43  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &amp;lt;br&amp;gt;&lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{11400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C.&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Sie sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen. &amp;lt;br&amp;gt;&lt;br /&gt;
# Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''Lösung:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ TMM als Normalisierungsmethode zwischen Proben &amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &amp;lt;br&amp;gt;&lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=11_BLAST_II&amp;diff=591</id>
		<title>11 BLAST II</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=11_BLAST_II&amp;diff=591"/>
		<updated>2020-10-05T00:16:41Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* P-Value */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Protein - Protein - BLAST: Liefert eher Ergebnisse, die im Hinblick auf Funktionsebene interessant sind&lt;br /&gt;
&lt;br /&gt;
Dabei wird stets ein E-value zusammen mit dem Ergebnis rausgegeben. Dieses liefert einen Hinweis auf zufälliges Hintergrundrauschen der Suche. Je niedriger de E-value, desto signifikanter ist das Suchergebnis. &lt;br /&gt;
&lt;br /&gt;
Doch wie können nun Ergebnisse einer BLAST Analyse verglichen werden? &lt;br /&gt;
&lt;br /&gt;
Zum Nachlesen von 'E-value' ist das FAQ der BLAST Domain hilfreich: What is the Expect (E) value?&lt;br /&gt;
https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&amp;amp;PAGE_TYPE=BlastDocs&amp;amp;DOC_TYPE=FAQ#expect&lt;br /&gt;
&lt;br /&gt;
== Bewertung von BLAST Ergebnissen ==&lt;br /&gt;
Score 'S' &lt;br /&gt;
      L  A  S  V  -  E            BLOSUM62 gap penalty = -4     &lt;br /&gt;
      L  T  S  L  A  Q&lt;br /&gt;
 S = +4  0 +4 +1 -4 +2 = '''7'''&lt;br /&gt;
&lt;br /&gt;
'''Score hängt von der Sequenzlänge, Substitutionsmatrix und 'gap penalty' ab und kann daher nicht direkt verglichen werden'''&lt;br /&gt;
&lt;br /&gt;
* Lösung: '''Bit score'''&lt;br /&gt;
* log_2 skalierte Version des normalisierten Scores&lt;br /&gt;
* Beschreibt die Größe des Such-Raumes, der zufällig einen Treffer mit gleichem oder besseren Score enthält&lt;br /&gt;
&lt;br /&gt;
 Ein Bit score von 20 würde bedeuten, dass ein Such-Raum der Größe 2^20 durchsucht werden müsste, um den Score zufällig zu finden. (2^20 = 1.048.576)&lt;br /&gt;
&lt;br /&gt;
[File:BLAST3.jpeg|200px|center|thumb]]&amp;lt;br /&amp;gt;&lt;br /&gt;
λ und k sind Karlin-Altschul-Paramter und ergeben sich aus der Scoring-Funktion.&lt;br /&gt;
&lt;br /&gt;
 N = n * m &lt;br /&gt;
&lt;br /&gt;
 n = Länge der ’query’ Sequenz und m = Länge der Datenbank&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Bsp: n=125        m=10.000          N=1.250.000&lt;br /&gt;
 In diesem Fall würde ein Bit Score von 20 auch durch Zufall gefunden werden&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== P-Value ==&lt;br /&gt;
'''P-Value: Wahrscheinlichkeit, dass ein Ergebnis durch Zufall eintritt'''&lt;br /&gt;
 S'=Bitscore&lt;br /&gt;
 &amp;lt;math&amp;gt;&lt;br /&gt;
       P = {2^{-S'}}  &lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 Bitscore = 20 &lt;br /&gt;
 &amp;lt;math&amp;gt; &lt;br /&gt;
 P = \frac{ 1}{1.048.576}&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''E-Value (Expect): P-Value korrigiert für Suchraum der Größe N'''&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt; &lt;br /&gt;
 E = \frac{ N}{2^{S'}} = \frac{ m*n}{2^{S'}}&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt; &lt;br /&gt;
 E = \frac{ 1.250.000}{1.048.576} = 1,19&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Anhaltspunkt:''' E-Value von &amp;lt;math&amp;gt; 10^{-5} &amp;lt;/math&amp;gt; bedeutet, dass ein Alignment mit Bitscore x in der Datenbank mit einer Wahrscheinlichkeit von &amp;lt;math&amp;gt; 10^{-5} &amp;lt;/math&amp;gt; durch Zufall gefunden würde.&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=11_BLAST_II&amp;diff=590</id>
		<title>11 BLAST II</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=11_BLAST_II&amp;diff=590"/>
		<updated>2020-10-05T00:16:23Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* P-Value */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Protein - Protein - BLAST: Liefert eher Ergebnisse, die im Hinblick auf Funktionsebene interessant sind&lt;br /&gt;
&lt;br /&gt;
Dabei wird stets ein E-value zusammen mit dem Ergebnis rausgegeben. Dieses liefert einen Hinweis auf zufälliges Hintergrundrauschen der Suche. Je niedriger de E-value, desto signifikanter ist das Suchergebnis. &lt;br /&gt;
&lt;br /&gt;
Doch wie können nun Ergebnisse einer BLAST Analyse verglichen werden? &lt;br /&gt;
&lt;br /&gt;
Zum Nachlesen von 'E-value' ist das FAQ der BLAST Domain hilfreich: What is the Expect (E) value?&lt;br /&gt;
https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&amp;amp;PAGE_TYPE=BlastDocs&amp;amp;DOC_TYPE=FAQ#expect&lt;br /&gt;
&lt;br /&gt;
== Bewertung von BLAST Ergebnissen ==&lt;br /&gt;
Score 'S' &lt;br /&gt;
      L  A  S  V  -  E            BLOSUM62 gap penalty = -4     &lt;br /&gt;
      L  T  S  L  A  Q&lt;br /&gt;
 S = +4  0 +4 +1 -4 +2 = '''7'''&lt;br /&gt;
&lt;br /&gt;
'''Score hängt von der Sequenzlänge, Substitutionsmatrix und 'gap penalty' ab und kann daher nicht direkt verglichen werden'''&lt;br /&gt;
&lt;br /&gt;
* Lösung: '''Bit score'''&lt;br /&gt;
* log_2 skalierte Version des normalisierten Scores&lt;br /&gt;
* Beschreibt die Größe des Such-Raumes, der zufällig einen Treffer mit gleichem oder besseren Score enthält&lt;br /&gt;
&lt;br /&gt;
 Ein Bit score von 20 würde bedeuten, dass ein Such-Raum der Größe 2^20 durchsucht werden müsste, um den Score zufällig zu finden. (2^20 = 1.048.576)&lt;br /&gt;
&lt;br /&gt;
[File:BLAST3.jpeg|200px|center|thumb]]&amp;lt;br /&amp;gt;&lt;br /&gt;
λ und k sind Karlin-Altschul-Paramter und ergeben sich aus der Scoring-Funktion.&lt;br /&gt;
&lt;br /&gt;
 N = n * m &lt;br /&gt;
&lt;br /&gt;
 n = Länge der ’query’ Sequenz und m = Länge der Datenbank&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Bsp: n=125        m=10.000          N=1.250.000&lt;br /&gt;
 In diesem Fall würde ein Bit Score von 20 auch durch Zufall gefunden werden&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== P-Value ==&lt;br /&gt;
'''P-Value: Wahrscheinlichkeit, dass ein Ergebnis durch Zufall eintritt'''&lt;br /&gt;
 S'=Bitscore&lt;br /&gt;
 &amp;lt;math&amp;gt;&lt;br /&gt;
       P = {2^{-S'}}  &lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 Bitscore = 20 &lt;br /&gt;
 &amp;lt;math&amp;gt; &lt;br /&gt;
 P = \frac{ 1}{1.048.576}&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''E-Value (Expect): P-Value korrigiert für Suchraum der Größe N'''&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt; &lt;br /&gt;
 E = \frac{ N}{2^{S'}} = \frac{ m*n}{2^{S'}}&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt; &lt;br /&gt;
 E = \frac{ 1.250.000}{1.048.576} = 1,19&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Anhaltspunkt: E-Value von &amp;lt;math&amp;gt; 10^{-5} &amp;lt;/math&amp;gt; bedeutet, dass ein Alignment mit Bitscore x in der Datenbank mit einer Wahrscheinlichkeit von &amp;lt;math&amp;gt; 10^{-5} &amp;lt;/math&amp;gt; durch Zufall gefunden würde.&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=11_BLAST_II&amp;diff=589</id>
		<title>11 BLAST II</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=11_BLAST_II&amp;diff=589"/>
		<updated>2020-10-05T00:12:55Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* P-Value */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Protein - Protein - BLAST: Liefert eher Ergebnisse, die im Hinblick auf Funktionsebene interessant sind&lt;br /&gt;
&lt;br /&gt;
Dabei wird stets ein E-value zusammen mit dem Ergebnis rausgegeben. Dieses liefert einen Hinweis auf zufälliges Hintergrundrauschen der Suche. Je niedriger de E-value, desto signifikanter ist das Suchergebnis. &lt;br /&gt;
&lt;br /&gt;
Doch wie können nun Ergebnisse einer BLAST Analyse verglichen werden? &lt;br /&gt;
&lt;br /&gt;
Zum Nachlesen von 'E-value' ist das FAQ der BLAST Domain hilfreich: What is the Expect (E) value?&lt;br /&gt;
https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&amp;amp;PAGE_TYPE=BlastDocs&amp;amp;DOC_TYPE=FAQ#expect&lt;br /&gt;
&lt;br /&gt;
== Bewertung von BLAST Ergebnissen ==&lt;br /&gt;
Score 'S' &lt;br /&gt;
      L  A  S  V  -  E            BLOSUM62 gap penalty = -4     &lt;br /&gt;
      L  T  S  L  A  Q&lt;br /&gt;
 S = +4  0 +4 +1 -4 +2 = '''7'''&lt;br /&gt;
&lt;br /&gt;
'''Score hängt von der Sequenzlänge, Substitutionsmatrix und 'gap penalty' ab und kann daher nicht direkt verglichen werden'''&lt;br /&gt;
&lt;br /&gt;
* Lösung: '''Bit score'''&lt;br /&gt;
* log_2 skalierte Version des normalisierten Scores&lt;br /&gt;
* Beschreibt die Größe des Such-Raumes, der zufällig einen Treffer mit gleichem oder besseren Score enthält&lt;br /&gt;
&lt;br /&gt;
 Ein Bit score von 20 würde bedeuten, dass ein Such-Raum der Größe 2^20 durchsucht werden müsste, um den Score zufällig zu finden. (2^20 = 1.048.576)&lt;br /&gt;
&lt;br /&gt;
[File:BLAST3.jpeg|200px|center|thumb]]&amp;lt;br /&amp;gt;&lt;br /&gt;
λ und k sind Karlin-Altschul-Paramter und ergeben sich aus der Scoring-Funktion.&lt;br /&gt;
&lt;br /&gt;
 N = n * m &lt;br /&gt;
&lt;br /&gt;
 n = Länge der ’query’ Sequenz und m = Länge der Datenbank&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Bsp: n=125        m=10.000          N=1.250.000&lt;br /&gt;
 In diesem Fall würde ein Bit Score von 20 auch durch Zufall gefunden werden&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== P-Value ==&lt;br /&gt;
'''P-Value: Wahrscheinlichkeit, dass ein Ergebnis durch Zufall eintritt'''&lt;br /&gt;
 S'=Bitscore&lt;br /&gt;
 &amp;lt;math&amp;gt;&lt;br /&gt;
       P = {2^{-S'}}  &lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 Bitscore = 20 &lt;br /&gt;
 &amp;lt;math&amp;gt; &lt;br /&gt;
 P = \frac{ 1}{1.048.576}&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''E-Value (Expect): P-Value korrigiert für Suchraum der Größe N'''&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt; &lt;br /&gt;
 E = \frac{ N}{2^{S'}} = \frac{ m*n}{2^{S'}}&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=11_BLAST_II&amp;diff=588</id>
		<title>11 BLAST II</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=11_BLAST_II&amp;diff=588"/>
		<updated>2020-10-05T00:12:15Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* P-Value */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Protein - Protein - BLAST: Liefert eher Ergebnisse, die im Hinblick auf Funktionsebene interessant sind&lt;br /&gt;
&lt;br /&gt;
Dabei wird stets ein E-value zusammen mit dem Ergebnis rausgegeben. Dieses liefert einen Hinweis auf zufälliges Hintergrundrauschen der Suche. Je niedriger de E-value, desto signifikanter ist das Suchergebnis. &lt;br /&gt;
&lt;br /&gt;
Doch wie können nun Ergebnisse einer BLAST Analyse verglichen werden? &lt;br /&gt;
&lt;br /&gt;
Zum Nachlesen von 'E-value' ist das FAQ der BLAST Domain hilfreich: What is the Expect (E) value?&lt;br /&gt;
https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&amp;amp;PAGE_TYPE=BlastDocs&amp;amp;DOC_TYPE=FAQ#expect&lt;br /&gt;
&lt;br /&gt;
== Bewertung von BLAST Ergebnissen ==&lt;br /&gt;
Score 'S' &lt;br /&gt;
      L  A  S  V  -  E            BLOSUM62 gap penalty = -4     &lt;br /&gt;
      L  T  S  L  A  Q&lt;br /&gt;
 S = +4  0 +4 +1 -4 +2 = '''7'''&lt;br /&gt;
&lt;br /&gt;
'''Score hängt von der Sequenzlänge, Substitutionsmatrix und 'gap penalty' ab und kann daher nicht direkt verglichen werden'''&lt;br /&gt;
&lt;br /&gt;
* Lösung: '''Bit score'''&lt;br /&gt;
* log_2 skalierte Version des normalisierten Scores&lt;br /&gt;
* Beschreibt die Größe des Such-Raumes, der zufällig einen Treffer mit gleichem oder besseren Score enthält&lt;br /&gt;
&lt;br /&gt;
 Ein Bit score von 20 würde bedeuten, dass ein Such-Raum der Größe 2^20 durchsucht werden müsste, um den Score zufällig zu finden. (2^20 = 1.048.576)&lt;br /&gt;
&lt;br /&gt;
[File:BLAST3.jpeg|200px|center|thumb]]&amp;lt;br /&amp;gt;&lt;br /&gt;
λ und k sind Karlin-Altschul-Paramter und ergeben sich aus der Scoring-Funktion.&lt;br /&gt;
&lt;br /&gt;
 N = n * m &lt;br /&gt;
&lt;br /&gt;
 n = Länge der ’query’ Sequenz und m = Länge der Datenbank&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Bsp: n=125        m=10.000          N=1.250.000&lt;br /&gt;
 In diesem Fall würde ein Bit Score von 20 auch durch Zufall gefunden werden&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== P-Value ==&lt;br /&gt;
'''P-Value: Wahrscheinlichkeit, dass ein Ergebnis durch Zufall eintritt'''&lt;br /&gt;
 S'=Bitscore&lt;br /&gt;
 &amp;lt;math&amp;gt;&lt;br /&gt;
       P = {2^{-S'}}  &lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 Bitscore = 20 &lt;br /&gt;
 &amp;lt;math&amp;gt; &lt;br /&gt;
 P = \frac{ 1}{1.048.576}&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''E-Value (Expect): P-Value korrigiert für Suchraum der Größe N'''&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt; &lt;br /&gt;
 E = \frac{ N}{2^{S'}}&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=11_BLAST_II&amp;diff=587</id>
		<title>11 BLAST II</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=11_BLAST_II&amp;diff=587"/>
		<updated>2020-10-05T00:10:59Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* P-Value */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Protein - Protein - BLAST: Liefert eher Ergebnisse, die im Hinblick auf Funktionsebene interessant sind&lt;br /&gt;
&lt;br /&gt;
Dabei wird stets ein E-value zusammen mit dem Ergebnis rausgegeben. Dieses liefert einen Hinweis auf zufälliges Hintergrundrauschen der Suche. Je niedriger de E-value, desto signifikanter ist das Suchergebnis. &lt;br /&gt;
&lt;br /&gt;
Doch wie können nun Ergebnisse einer BLAST Analyse verglichen werden? &lt;br /&gt;
&lt;br /&gt;
Zum Nachlesen von 'E-value' ist das FAQ der BLAST Domain hilfreich: What is the Expect (E) value?&lt;br /&gt;
https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&amp;amp;PAGE_TYPE=BlastDocs&amp;amp;DOC_TYPE=FAQ#expect&lt;br /&gt;
&lt;br /&gt;
== Bewertung von BLAST Ergebnissen ==&lt;br /&gt;
Score 'S' &lt;br /&gt;
      L  A  S  V  -  E            BLOSUM62 gap penalty = -4     &lt;br /&gt;
      L  T  S  L  A  Q&lt;br /&gt;
 S = +4  0 +4 +1 -4 +2 = '''7'''&lt;br /&gt;
&lt;br /&gt;
'''Score hängt von der Sequenzlänge, Substitutionsmatrix und 'gap penalty' ab und kann daher nicht direkt verglichen werden'''&lt;br /&gt;
&lt;br /&gt;
* Lösung: '''Bit score'''&lt;br /&gt;
* log_2 skalierte Version des normalisierten Scores&lt;br /&gt;
* Beschreibt die Größe des Such-Raumes, der zufällig einen Treffer mit gleichem oder besseren Score enthält&lt;br /&gt;
&lt;br /&gt;
 Ein Bit score von 20 würde bedeuten, dass ein Such-Raum der Größe 2^20 durchsucht werden müsste, um den Score zufällig zu finden. (2^20 = 1.048.576)&lt;br /&gt;
&lt;br /&gt;
[File:BLAST3.jpeg|200px|center|thumb]]&amp;lt;br /&amp;gt;&lt;br /&gt;
λ und k sind Karlin-Altschul-Paramter und ergeben sich aus der Scoring-Funktion.&lt;br /&gt;
&lt;br /&gt;
 N = n * m &lt;br /&gt;
&lt;br /&gt;
 n = Länge der ’query’ Sequenz und m = Länge der Datenbank&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Bsp: n=125        m=10.000          N=1.250.000&lt;br /&gt;
 In diesem Fall würde ein Bit Score von 20 auch durch Zufall gefunden werden&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== P-Value ==&lt;br /&gt;
'''P-Value: Wahrscheinlichkeit, dass ein Ergebnis durch Zufall eintritt'''&lt;br /&gt;
 S'=Bitscore&lt;br /&gt;
 &amp;lt;math&amp;gt;&lt;br /&gt;
       P = {2^{-S'}}  &lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 Bitscore = 20 &lt;br /&gt;
 &amp;lt;math&amp;gt; &lt;br /&gt;
 P = \frac{ 1}{1.048.576}&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''E-Value (Expect): P-Value korrigiert für Suchraum der Größe N'''&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt; &lt;br /&gt;
 E = \frac{ N}{2^S'}&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=11_BLAST_II&amp;diff=586</id>
		<title>11 BLAST II</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=11_BLAST_II&amp;diff=586"/>
		<updated>2020-10-05T00:08:22Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* P-Value */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Protein - Protein - BLAST: Liefert eher Ergebnisse, die im Hinblick auf Funktionsebene interessant sind&lt;br /&gt;
&lt;br /&gt;
Dabei wird stets ein E-value zusammen mit dem Ergebnis rausgegeben. Dieses liefert einen Hinweis auf zufälliges Hintergrundrauschen der Suche. Je niedriger de E-value, desto signifikanter ist das Suchergebnis. &lt;br /&gt;
&lt;br /&gt;
Doch wie können nun Ergebnisse einer BLAST Analyse verglichen werden? &lt;br /&gt;
&lt;br /&gt;
Zum Nachlesen von 'E-value' ist das FAQ der BLAST Domain hilfreich: What is the Expect (E) value?&lt;br /&gt;
https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&amp;amp;PAGE_TYPE=BlastDocs&amp;amp;DOC_TYPE=FAQ#expect&lt;br /&gt;
&lt;br /&gt;
== Bewertung von BLAST Ergebnissen ==&lt;br /&gt;
Score 'S' &lt;br /&gt;
      L  A  S  V  -  E            BLOSUM62 gap penalty = -4     &lt;br /&gt;
      L  T  S  L  A  Q&lt;br /&gt;
 S = +4  0 +4 +1 -4 +2 = '''7'''&lt;br /&gt;
&lt;br /&gt;
'''Score hängt von der Sequenzlänge, Substitutionsmatrix und 'gap penalty' ab und kann daher nicht direkt verglichen werden'''&lt;br /&gt;
&lt;br /&gt;
* Lösung: '''Bit score'''&lt;br /&gt;
* log_2 skalierte Version des normalisierten Scores&lt;br /&gt;
* Beschreibt die Größe des Such-Raumes, der zufällig einen Treffer mit gleichem oder besseren Score enthält&lt;br /&gt;
&lt;br /&gt;
 Ein Bit score von 20 würde bedeuten, dass ein Such-Raum der Größe 2^20 durchsucht werden müsste, um den Score zufällig zu finden. (2^20 = 1.048.576)&lt;br /&gt;
&lt;br /&gt;
[File:BLAST3.jpeg|200px|center|thumb]]&amp;lt;br /&amp;gt;&lt;br /&gt;
λ und k sind Karlin-Altschul-Paramter und ergeben sich aus der Scoring-Funktion.&lt;br /&gt;
&lt;br /&gt;
 N = n * m &lt;br /&gt;
&lt;br /&gt;
 n = Länge der ’query’ Sequenz und m = Länge der Datenbank&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Bsp: n=125        m=10.000          N=1.250.000&lt;br /&gt;
 In diesem Fall würde ein Bit Score von 20 auch durch Zufall gefunden werden&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== P-Value ==&lt;br /&gt;
'''P-Value: Wahrscheinlichkeit, dass ein Ergebnis durch Zufall eintritt'''&lt;br /&gt;
 S'=Bitscore&lt;br /&gt;
 &amp;lt;math&amp;gt;&lt;br /&gt;
       P = {2^{-S'}}  &lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 Bitscore = 20 &lt;br /&gt;
 &amp;lt;math&amp;gt; &lt;br /&gt;
 P = \frac{ 1}{1.048.576}&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=11_BLAST_II&amp;diff=585</id>
		<title>11 BLAST II</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=11_BLAST_II&amp;diff=585"/>
		<updated>2020-10-05T00:07:29Z</updated>

		<summary type="html">&lt;p&gt;Pge: /* P-Value */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Protein - Protein - BLAST: Liefert eher Ergebnisse, die im Hinblick auf Funktionsebene interessant sind&lt;br /&gt;
&lt;br /&gt;
Dabei wird stets ein E-value zusammen mit dem Ergebnis rausgegeben. Dieses liefert einen Hinweis auf zufälliges Hintergrundrauschen der Suche. Je niedriger de E-value, desto signifikanter ist das Suchergebnis. &lt;br /&gt;
&lt;br /&gt;
Doch wie können nun Ergebnisse einer BLAST Analyse verglichen werden? &lt;br /&gt;
&lt;br /&gt;
Zum Nachlesen von 'E-value' ist das FAQ der BLAST Domain hilfreich: What is the Expect (E) value?&lt;br /&gt;
https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&amp;amp;PAGE_TYPE=BlastDocs&amp;amp;DOC_TYPE=FAQ#expect&lt;br /&gt;
&lt;br /&gt;
== Bewertung von BLAST Ergebnissen ==&lt;br /&gt;
Score 'S' &lt;br /&gt;
      L  A  S  V  -  E            BLOSUM62 gap penalty = -4     &lt;br /&gt;
      L  T  S  L  A  Q&lt;br /&gt;
 S = +4  0 +4 +1 -4 +2 = '''7'''&lt;br /&gt;
&lt;br /&gt;
'''Score hängt von der Sequenzlänge, Substitutionsmatrix und 'gap penalty' ab und kann daher nicht direkt verglichen werden'''&lt;br /&gt;
&lt;br /&gt;
* Lösung: '''Bit score'''&lt;br /&gt;
* log_2 skalierte Version des normalisierten Scores&lt;br /&gt;
* Beschreibt die Größe des Such-Raumes, der zufällig einen Treffer mit gleichem oder besseren Score enthält&lt;br /&gt;
&lt;br /&gt;
 Ein Bit score von 20 würde bedeuten, dass ein Such-Raum der Größe 2^20 durchsucht werden müsste, um den Score zufällig zu finden. (2^20 = 1.048.576)&lt;br /&gt;
&lt;br /&gt;
[File:BLAST3.jpeg|200px|center|thumb]]&amp;lt;br /&amp;gt;&lt;br /&gt;
λ und k sind Karlin-Altschul-Paramter und ergeben sich aus der Scoring-Funktion.&lt;br /&gt;
&lt;br /&gt;
 N = n * m &lt;br /&gt;
&lt;br /&gt;
 n = Länge der ’query’ Sequenz und m = Länge der Datenbank&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 Bsp: n=125        m=10.000          N=1.250.000&lt;br /&gt;
 In diesem Fall würde ein Bit Score von 20 auch durch Zufall gefunden werden&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== P-Value ==&lt;br /&gt;
'''P-Value: Wahrscheinlichkeit, dass ein Ergebnis durch Zufall eintritt'''&lt;br /&gt;
 S'=Bitscore&lt;br /&gt;
 &amp;lt;math&amp;gt;&lt;br /&gt;
       P = {2^{-S'}}  &lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 Bitscore = 20 &lt;br /&gt;
 &amp;lt;math&amp;gt; &lt;br /&gt;
 P = \frac{ 5}{7 kb \cdot 18}&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Pge</name></author>
	</entry>
</feed>