<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>http://wiki.bioinfo.nat.tu-bs.de/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Patrick+Melichar</id>
	<title>Bioinformatik Wiki - User contributions [en]</title>
	<link rel="self" type="application/atom+xml" href="http://wiki.bioinfo.nat.tu-bs.de/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Patrick+Melichar"/>
	<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/Special:Contributions/Patrick_Melichar"/>
	<updated>2026-05-28T19:55:05Z</updated>
	<subtitle>User contributions</subtitle>
	<generator>MediaWiki 1.39.7</generator>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=9.Biomarker&amp;diff=194</id>
		<title>9.Biomarker</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=9.Biomarker&amp;diff=194"/>
		<updated>2019-08-18T23:20:14Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war zum 27.06.2019 abzugeben.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: Definitionen ==&lt;br /&gt;
&lt;br /&gt;
ROC: Abkürzung für receiver operating characteristic. Dies ist eine Methode mit der man Analysemethoden wie z.B. Diagnosealgorithmen optimieren und bewerten kann. Dafür bestimmt man die falschpositiven und falschnegativen Ergebnisse der Analysemethode und bestimmt damit die Sensitivität und Spezifität der Methode. Anschließend wägt man diese gegeneinander ab.&lt;br /&gt;
&lt;br /&gt;
AUC: Abkürzung für Area under Curve. Beschreibt die Fläche unter der Kurve die man erhält wenn man Sensitivität gegen 1-Spezifität aufträgt. Der AUC-Wert liegt dabei zwischen 1 und 0. Ein Wert nahe 1 bedeutet dabei dass die Analysemethode wenig falschpositive und falschnegative Werte generiert. Ein Wert nahe 0 bedeutet dass die Analysemethode fast ausschließlich falschpositive und falschnegative Werte generiert. Dies bedeutet, dass der Algothitmus trotzdem funktioniert, man ihn jedoch &amp;quot;umdrehen&amp;quot; muss. Werte um 0,5 herum sind daher die schlechtesten Werte, da diese bedeuten dass die Methode qualitativ so gut sind wie per Zufall zu diagnositizieren.&lt;br /&gt;
&lt;br /&gt;
Spezifität: &amp;lt;math&amp;gt; \frac{True negatives}{False positives+True negatives}&amp;lt;/math&amp;gt;. Rate mit denen die Analysemethode Negativproben korrekt erkennt. Idealerweise geht der Werte gegen 1.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Sensitivität: &amp;lt;math&amp;gt; \frac{True positives}{False negatives+True positives}&amp;lt;/math&amp;gt;. Rate mit denen die Analysemethode Positivproben korrekt erkennt. Idealerweise geht der Werte gegen 1.&lt;br /&gt;
&lt;br /&gt;
logit-Funktion: eine logistische Funktion die die Analysemethoden verwenden um mit&lt;br /&gt;
Expressionsleveln von Biomarkern einen Wert zwischen 0 und 1 zu berechnen, den man&lt;br /&gt;
dann verwenden kann um abzuschätzen ob ein positiv oder ein negativ vorliegt. &lt;br /&gt;
&amp;lt;math&amp;gt;logit(P) = log \frac{P_{X}}{1-P_{X}} = \beta_{1} * TPM_{GenX} + \beta_{0} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Threshhold: Cutoff-Wert in der logit-Funktion. Dort trennt der Analysealgrithmus die logit&lt;br /&gt;
funktion, alles auf einer Seite wird als positiv bewertet und alles auf der anderen Seite als&lt;br /&gt;
negativ. Was was ist hängt davon ab bei kranken Menschen dieser Biomarker hoch oder&lt;br /&gt;
runtereguliert ist.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2: Biomarker ==&lt;br /&gt;
&lt;br /&gt;
a. Was ist ein Biomarker und wofür kann er verwendet werden?&lt;br /&gt;
&lt;br /&gt;
Biomarker sind messbare biologische Parameter die eine gewisse Aussagekraft für Diagnose und Prognose haben. Ein gutes Beispiel für einen Biomarker ist zum Beispiel das Expressionsniveau eines Gens. Mit der Analyse von Biomarkern kann man bei der Diagnose von Krankheiten bei Menschen helfen. &lt;br /&gt;
&lt;br /&gt;
b. Beschreiben Sie, wie Biomarker bestimmt werden können.&lt;br /&gt;
&lt;br /&gt;
Einfache Biomarker wie Körpertemperatur und Blutdruck kann man mit einfachen diagnostischen Methoden bestimmen. Genexpressionsbiomarker kann man mit einer RNA-Sequenzierung einer Zellprobe durchführen. Die Werte kann man anschließend mit Analysemethoden aufbereiten um mit mehreren Biomarkern eine zuverlässigere Vorraussage zu treffen.&lt;br /&gt;
&lt;br /&gt;
c. Warum ist ein einzelner Biomarker meistens nicht genug und was ist der Vorteil einer&lt;br /&gt;
Biomarker-Signatur?&lt;br /&gt;
&lt;br /&gt;
Ein Biomarker reicht nicht da die Genexpression meist bei kranken Patienten bei einer&lt;br /&gt;
bestimmten Krankheit nur im Durchschnitt herunter oder hoch reguliert ist. Die einzelnen&lt;br /&gt;
Patienten weisen meist keine veränderte Genexpression bei jedem der Biomarker für ihre&lt;br /&gt;
Krankheit auf, sondern nur bei einigen. Auch umgekehrt kann die Genexpression eines Gens&lt;br /&gt;
bei gesunden Menschen sich ändern ohne dass dies eine Krankheit als Ursprung hat.&lt;br /&gt;
Deshalb sollte man mehrere Biomarker verwenden um die Spezifität und Sensitivität zu&lt;br /&gt;
erhöhen.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 3 ==&lt;br /&gt;
&lt;br /&gt;
Aus den ermittelten Metabolitleveln einer imaginären Studie wurde ein logistisches&lt;br /&gt;
Regressionsmodell entworfen. Dieses Modell soll in der Lage sein, an Hand von diesen&lt;br /&gt;
Metabolitleveln eine Vorhersage über den Gesundheitszustand von Patienten zu machen. Bei&lt;br /&gt;
dem Aufstellen des Modells wurde eine 0 als krank und eine 1 als gesund definiert. Folgende&lt;br /&gt;
Ausgaben aus diesem Modell wurden enthalten:&lt;br /&gt;
&amp;lt;style type=&amp;quot;text/css&amp;quot;&amp;gt;&lt;br /&gt;
	table.tableizer-table {&lt;br /&gt;
		font-size: 12px;&lt;br /&gt;
		border: 1px solid #CCC; &lt;br /&gt;
		font-family: Arial, Helvetica, sans-serif;&lt;br /&gt;
	} &lt;br /&gt;
	.tableizer-table td {&lt;br /&gt;
		padding: 4px;&lt;br /&gt;
		margin: 3px;&lt;br /&gt;
		border: 1px solid #CCC;&lt;br /&gt;
	}&lt;br /&gt;
	.tableizer-table th {&lt;br /&gt;
		background-color: #104E8B; &lt;br /&gt;
		color: #FFF;&lt;br /&gt;
		font-weight: bold;&lt;br /&gt;
	}&lt;br /&gt;
&amp;lt;/style&amp;gt;&lt;br /&gt;
&amp;lt;table class=&amp;quot;tableizer-table&amp;quot;&amp;gt;&lt;br /&gt;
&amp;lt;tr class=&amp;quot;tableizer-firstrow&amp;quot;&amp;gt;&amp;lt;th&amp;gt;Ausgabe des Modells&amp;lt;/th&amp;gt;&amp;lt;th&amp;gt;Wirklicher Gesundheitsstatus der Patienten&amp;lt;/th&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,84&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;Gesund&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,75&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;Gesund&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,63&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;Gesund&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,49&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;Gesund&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,9&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;Gesund&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,25&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;Gesund&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,57&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;Krank&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,43&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;Krank&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;1&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;Krank&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,28&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;Krank&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,77&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;Krank&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,16&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;Krank&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
&amp;lt;/table&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Bitte bearbeiten Sie nun folgende Fragestellungen:&lt;br /&gt;
&lt;br /&gt;
a) Was sind FPR, TPR, TNR und FNR? Erklären Sie kurz!&lt;br /&gt;
&lt;br /&gt;
FPR: false Positive Rate: Rate an Patienten die gesund sind aber vom Modell als krank&lt;br /&gt;
erachtet werden.&lt;br /&gt;
&lt;br /&gt;
TPR: true positive Rate: Rate an Patienten die krank sind und vom Modell als krank erachtet&lt;br /&gt;
werden.&lt;br /&gt;
TNR: true negative Rate: Rate an Patienten die gesund sind und vom Modell als gesund&lt;br /&gt;
erachtet werden.&lt;br /&gt;
&lt;br /&gt;
FNR: false Negative Rate: Rate an Patienten die krank sind aber vom Modell als gesund&lt;br /&gt;
erachtet werden.&lt;br /&gt;
&lt;br /&gt;
b) Berechnen Sie für die 6 Thresholds 0; 0,2; 0,4; 0,6; 0,8; 1 die Spezifität und die&lt;br /&gt;
Sensitivität des Modells.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;lt;table class=&amp;quot;tableizer-table&amp;quot;&amp;gt;&lt;br /&gt;
&amp;lt;tr class=&amp;quot;tableizer-firstrow&amp;quot;&amp;gt;&amp;lt;th&amp;gt;Ausgabe vom Modell&amp;lt;/th&amp;gt;&amp;lt;th&amp;gt;Patient&amp;lt;/th&amp;gt;&amp;lt;th&amp;gt;0&amp;lt;/th&amp;gt;&amp;lt;th&amp;gt;0,2&amp;lt;/th&amp;gt;&amp;lt;th&amp;gt;0,4&amp;lt;/th&amp;gt;&amp;lt;th&amp;gt;0,6&amp;lt;/th&amp;gt;&amp;lt;th&amp;gt;0,8&amp;lt;/th&amp;gt;&amp;lt;th&amp;gt;1&amp;lt;/th&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;&amp;amp;nbsp;&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;ist...&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;&amp;amp;nbsp;&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;&amp;amp;nbsp;&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;&amp;amp;nbsp;&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;&amp;amp;nbsp;&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;&amp;amp;nbsp;&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;&amp;amp;nbsp;&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,84&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;gesund&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FP&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,75&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;gesund&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FP&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,63&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;gesund&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FP&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,49&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;gesund&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FP&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,9&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;gesund&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FP&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,25&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;gesund&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FP&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,57&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;krank&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,43&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;krank&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,001&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;krank&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,28&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;krank&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,77&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;krank&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;0,16&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;krank&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;FN&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;TP&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
&amp;lt;/table&amp;gt;&lt;br /&gt;
&lt;br /&gt;
TN: True Negative; FN: False Negative; TP: True Positive; FP: False Positive&lt;br /&gt;
&lt;br /&gt;
&amp;lt;table class=&amp;quot;tableizer-table&amp;quot;&amp;gt;&lt;br /&gt;
&amp;lt;tr class=&amp;quot;tableizer-firstrow&amp;quot;&amp;gt;&amp;lt;th&amp;gt;Threshhold&amp;lt;/th&amp;gt;&amp;lt;th&amp;gt;0&amp;lt;/th&amp;gt;&amp;lt;th&amp;gt;0,2&amp;lt;/th&amp;gt;&amp;lt;th&amp;gt;0,4&amp;lt;/th&amp;gt;&amp;lt;th&amp;gt;0,6&amp;lt;/th&amp;gt;&amp;lt;th&amp;gt;0,8&amp;lt;/th&amp;gt;&amp;lt;th&amp;gt;1&amp;lt;/th&amp;gt;&amp;lt;th&amp;gt;&amp;amp;nbsp;&amp;lt;/th&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;T P R&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;0&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;2&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;3&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;5&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;6&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;6&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;&amp;amp;nbsp;&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;F P R&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;0&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;0&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;1&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;2&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;4&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;6&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;&amp;amp;nbsp;&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;T N R&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;6&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;6&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;5&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;4&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;2&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;0&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;&amp;amp;nbsp;&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;F N R&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;6&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;4&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;3&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;1&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;0&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;0&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;&amp;amp;nbsp;&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;Sensitivität&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;0&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;0,33333333&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;0,5&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;0,83333333&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;1&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;1&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;&amp;amp;nbsp;&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
 &amp;lt;tr&amp;gt;&amp;lt;td&amp;gt;Spezifität&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;1&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;1&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;0.83333333&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;0.66666667&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;0.33333333&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;0&amp;lt;/td&amp;gt;&amp;lt;td&amp;gt;&amp;lt;/td&amp;gt;&amp;lt;/tr&amp;gt;&lt;br /&gt;
&amp;lt;/table&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Wie Spezifität und Sensitivität berechnet wird, ist in Aufgabe 1 beschrieben&lt;br /&gt;
&lt;br /&gt;
c) Welcher dieser Thresholds ist für dieses Modell der Beste? Begründen Sie!&lt;br /&gt;
&lt;br /&gt;
Die passende Threshhold hängt davon ab worum es sich bei der Krankheit handelt. Je&lt;br /&gt;
schwerwiegender es ist, je einfacher die Diagnose nach einem Treffer mit dem Modell, desto&lt;br /&gt;
eher kann man eine geringe Spezifität verkraften. Hier in diesem Modell könnte man zum Beispiel generell&lt;br /&gt;
erstmal 0.6 als besten Threshold nehmen. Wenn die Krankheit die hier diagnostiziert wird&lt;br /&gt;
eine unbehandelt tödliche ist, die man nach der Analyse kostengünstig mit einem Bluttest&lt;br /&gt;
oder so nachweisen lässt, dann würde ich eher zu 0.8 tendieren da, da dann eine geringe&lt;br /&gt;
Spezifität für eine möglichst hohe Sensitivität in Kauf genommen werden kann&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=9.Biomarker&amp;diff=193</id>
		<title>9.Biomarker</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=9.Biomarker&amp;diff=193"/>
		<updated>2019-08-18T22:33:19Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: /* Aufgabe 2: Biomarker */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war zum 27.06.2019 abzugeben.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: Definitionen ==&lt;br /&gt;
&lt;br /&gt;
ROC: Abkürzung für receiver operating characteristic. Dies ist eine Methode mit der man Analysemethoden wie z.B. Diagnosealgorithmen optimieren und bewerten kann. Dafür bestimmt man die falschpositiven und falschnegativen Ergebnisse der Analysemethode und bestimmt damit die Sensitivität und Spezifität der Methode. Anschließend wägt man diese gegeneinander ab.&lt;br /&gt;
&lt;br /&gt;
AUC: Abkürzung für Area under Curve. Beschreibt die Fläche unter der Kurve die man erhält wenn man Sensitivität gegen 1-Spezifität aufträgt. Der AUC-Wert liegt dabei zwischen 1 und 0. Ein Wert nahe 1 bedeutet dabei dass die Analysemethode wenig falschpositive und falschnegative Werte generiert. Ein Wert nahe 0 bedeutet dass die Analysemethode fast ausschließlich falschpositive und falschnegative Werte generiert. Dies bedeutet, dass der Algothitmus trotzdem funktioniert, man ihn jedoch &amp;quot;umdrehen&amp;quot; muss. Werte um 0,5 herum sind daher die schlechtesten Werte, da diese bedeuten dass die Methode qualitativ so gut sind wie per Zufall zu diagnositizieren.&lt;br /&gt;
&lt;br /&gt;
Spezifität: &amp;lt;math&amp;gt; \frac{True negatives}{False positives+True negatives}&amp;lt;/math&amp;gt;. Rate mit denen die Analysemethode Negativproben korrekt erkennt. Idealerweise geht der Werte gegen 1.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Sensitivität: &amp;lt;math&amp;gt; \frac{True positives}{False negatives+True positives}&amp;lt;/math&amp;gt;. Rate mit denen die Analysemethode Positivproben korrekt erkennt. Idealerweise geht der Werte gegen 1.&lt;br /&gt;
&lt;br /&gt;
logit-Funktion: eine logistische Funktion die die Analysemethoden verwenden um mit&lt;br /&gt;
Expressionsleveln von Biomarkern einen Wert zwischen 0 und 1 zu berechnen, den man&lt;br /&gt;
dann verwenden kann um abzuschätzen ob ein positiv oder ein negativ vorliegt. &lt;br /&gt;
&amp;lt;math&amp;gt;logit(P) = log \frac{P_{X}}{1-P_{X}} = \beta_{1} * TPM_{GenX} + \beta_{0} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Threshhold: Cutoff-Wert in der logit-Funktion. Dort trennt der Analysealgrithmus die logit&lt;br /&gt;
funktion, alles auf einer Seite wird als positiv bewertet und alles auf der anderen Seite als&lt;br /&gt;
negativ. Was was ist hängt davon ab bei kranken Menschen dieser Biomarker hoch oder&lt;br /&gt;
runtereguliert ist.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2: Biomarker ==&lt;br /&gt;
&lt;br /&gt;
a. Was ist ein Biomarker und wofür kann er verwendet werden?&lt;br /&gt;
&lt;br /&gt;
Biomarker sind messbare biologische Parameter die eine gewisse Aussagekraft für Diagnose und Prognose haben. Ein gutes Beispiel für einen Biomarker ist zum Beispiel das Expressionsniveau eines Gens. Mit der Analyse von Biomarkern kann man bei der Diagnose von Krankheiten bei Menschen helfen. &lt;br /&gt;
&lt;br /&gt;
b. Beschreiben Sie, wie Biomarker bestimmt werden können.&lt;br /&gt;
&lt;br /&gt;
Einfache Biomarker wie Körpertemperatur und Blutdruck kann man mit einfachen diagnostischen Methoden bestimmen. Genexpressionsbiomarker kann man mit einer RNA-Sequenzierung einer Zellprobe durchführen. Die Werte kann man anschließend mit Analysemethoden aufbereiten um mit mehreren Biomarkern eine zuverlässigere Vorraussage zu treffen.&lt;br /&gt;
&lt;br /&gt;
c. Warum ist ein einzelner Biomarker meistens nicht genug und was ist der Vorteil einer&lt;br /&gt;
Biomarker-Signatur?&lt;br /&gt;
&lt;br /&gt;
Ein Biomarker reicht nicht da die Genexpression meist bei kranken Patienten bei einer&lt;br /&gt;
bestimmten Krankheit nur im Durchschnitt herunter oder hoch reguliert ist. Die einzelnen&lt;br /&gt;
Patienten weisen meist keine veränderte Genexpression bei jedem der Biomarker für ihre&lt;br /&gt;
Krankheit auf, sondern nur bei einigen. Auch umgekehrt kann die Genexpression eines Gens&lt;br /&gt;
bei gesunden Menschen sich ändern ohne dass dies eine Krankheit als Ursprung hat.&lt;br /&gt;
Deshalb sollte man mehrere Biomarker verwenden um die Spezifität und Sensitivität zu&lt;br /&gt;
erhöhen&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=9.Biomarker&amp;diff=192</id>
		<title>9.Biomarker</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=9.Biomarker&amp;diff=192"/>
		<updated>2019-08-11T20:06:36Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: Created page with &amp;quot;Diese Übung war zum 27.06.2019 abzugeben.  == Aufgabe 1: Definitionen ==  ROC: Abkürzung für receiver operating characteristic. Dies ist eine Methode mit der man Analysemet...&amp;quot;&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war zum 27.06.2019 abzugeben.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: Definitionen ==&lt;br /&gt;
&lt;br /&gt;
ROC: Abkürzung für receiver operating characteristic. Dies ist eine Methode mit der man Analysemethoden wie z.B. Diagnosealgorithmen optimieren und bewerten kann. Dafür bestimmt man die falschpositiven und falschnegativen Ergebnisse der Analysemethode und bestimmt damit die Sensitivität und Spezifität der Methode. Anschließend wägt man diese gegeneinander ab.&lt;br /&gt;
&lt;br /&gt;
AUC: Abkürzung für Area under Curve. Beschreibt die Fläche unter der Kurve die man erhält wenn man Sensitivität gegen 1-Spezifität aufträgt. Der AUC-Wert liegt dabei zwischen 1 und 0. Ein Wert nahe 1 bedeutet dabei dass die Analysemethode wenig falschpositive und falschnegative Werte generiert. Ein Wert nahe 0 bedeutet dass die Analysemethode fast ausschließlich falschpositive und falschnegative Werte generiert. Dies bedeutet, dass der Algothitmus trotzdem funktioniert, man ihn jedoch &amp;quot;umdrehen&amp;quot; muss. Werte um 0,5 herum sind daher die schlechtesten Werte, da diese bedeuten dass die Methode qualitativ so gut sind wie per Zufall zu diagnositizieren.&lt;br /&gt;
&lt;br /&gt;
Spezifität: &amp;lt;math&amp;gt; \frac{True negatives}{False positives+True negatives}&amp;lt;/math&amp;gt;. Rate mit denen die Analysemethode Negativproben korrekt erkennt. Idealerweise geht der Werte gegen 1.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Sensitivität: &amp;lt;math&amp;gt; \frac{True positives}{False negatives+True positives}&amp;lt;/math&amp;gt;. Rate mit denen die Analysemethode Positivproben korrekt erkennt. Idealerweise geht der Werte gegen 1.&lt;br /&gt;
&lt;br /&gt;
logit-Funktion: eine logistische Funktion die die Analysemethoden verwenden um mit&lt;br /&gt;
Expressionsleveln von Biomarkern einen Wert zwischen 0 und 1 zu berechnen, den man&lt;br /&gt;
dann verwenden kann um abzuschätzen ob ein positiv oder ein negativ vorliegt. &lt;br /&gt;
&amp;lt;math&amp;gt;logit(P) = log \frac{P_{X}}{1-P_{X}} = \beta_{1} * TPM_{GenX} + \beta_{0} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Threshhold: Cutoff-Wert in der logit-Funktion. Dort trennt der Analysealgrithmus die logit&lt;br /&gt;
funktion, alles auf einer Seite wird als positiv bewertet und alles auf der anderen Seite als&lt;br /&gt;
negativ. Was was ist hängt davon ab bei kranken Menschen dieser Biomarker hoch oder&lt;br /&gt;
runtereguliert ist.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2: Biomarker ==&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=7.Hypothesentests&amp;diff=191</id>
		<title>7.Hypothesentests</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=7.Hypothesentests&amp;diff=191"/>
		<updated>2019-07-20T20:56:10Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: /* Aufgabe 2 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war zum 29.05.2019 abzugeben&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1 ==&lt;br /&gt;
&lt;br /&gt;
a) Was misst ein t-Test und wie wird dieser berechnet? Was bedeutet der p-Wert?&lt;br /&gt;
&lt;br /&gt;
Der t-Test ist eine Methode der statistischen Analyse, bei der man testet ob ein Mittelwert einer Stichprobe von dem Erwartungswert der Grundgesamtheit abhängt. Mit Varianten des t-Tests kann man außerdem Nullhypothesen(H0) überprüfen ob zwei oder mehr Stichproben derselben Gesamtheit entspringen oder sich dafür zu signifikant unterscheiden. Der p-Wert ist eine Wahrscheinlichkeit und gibt hierbei das minimale Signifikanzniveau an, bei dem H0 nicht mehr gilt. Der p-Wert ist außerdem die Wahrscheinlichkeit mit der Stichproben zufällig die H0-Hypothese ablehnen.&lt;br /&gt;
&lt;br /&gt;
Für einen t-Test müssen zunächst Mittelwert, Standardabweichung und Freiheitsgrade für alle Stichproben berechnet werden.  &lt;br /&gt;
&lt;br /&gt;
Mittelwert: &amp;lt;math&amp;gt;\bar{x}_{\mathrm{arithm}} = \frac{1}{n} \sum_{i=1}^n{x_i} = \frac{x_1 + x_2 + \dotsb + x_n}{n}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Standardabweichung: &amp;lt;math&amp;gt;\tilde s := +\sqrt{\frac{1}{n} \sum \limits_{i=1}^n\left(x_i-\overline x\right)^2} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Freiheitsgrade: df = n-1&lt;br /&gt;
&lt;br /&gt;
In den Formeln ist &amp;lt;math&amp;gt;\bar{x} &amp;lt;/math&amp;gt; der Mittelwert, &amp;lt;math&amp;gt; x_1 &amp;lt;/math&amp;gt; etc. die einzelnen Werte der Stichprobe und n die Anzahl der Werte einer Stichprobe.&lt;br /&gt;
&lt;br /&gt;
Nachdem man diese Werte bestimmt hat, kann man mit verschiedenen Formeln (da es viele veschiedene t-Tests gibt) den t-Wert berechnen. Hier wird beispielsweise die Formel für den gepoolten Welch-t-test gezeigt: &lt;br /&gt;
:&amp;lt;math&amp;gt;&lt;br /&gt;
t \quad = \quad {\; \overline{x}_1 - \overline{x}_2 \; \over \sqrt{ \; {s_1^2 \over N_1} \; + \; {s_2^2 \over N_2} \quad }}\,&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Der berechnete Wert, wird dann in einer T-Tabelle nachgeschlagen und verglichen. Bevor man einen Wert heraussuchen kann muss ein Signifikanzniveau festgelegt werden, über dem H0 abgelehnt wird, z.B. 0,05. Dann kann man in der Tabelle den Referenz-t-Wert finden und wenn der berechnete t-Wert über dem Referenzwert ist, dann unterscheiden sich die Stichproben signifikant und können nicht als zwei Stichproben aus der gleichen Grundgesamtheit angesehen werden. &lt;br /&gt;
&lt;br /&gt;
b) Wie unterscheiden sich Student‘s t-Test und Welch‘s t-Test?&lt;br /&gt;
&lt;br /&gt;
Students t-Test sollte nur angewendet werden wenn die Grundgeamtheiten die gleiche Varianz&lt;br /&gt;
aufweisen. Wenn dies der Fall ist sollte der Welch-Test verwendet werden. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2 ==&lt;br /&gt;
&lt;br /&gt;
a) Welches statistische Problem tritt auf, wenn man eine statistische Signifikanz zw. zwei&lt;br /&gt;
Bedingungen für viele Gene testet? &lt;br /&gt;
&lt;br /&gt;
Problematisch ist, dass sich Fehler 1. Art (auch alpha-Fehler) anhäufen können. Dies tritt auf wenn bei einer Probe H0 wahr ist, jedoch der Test H1 feststellt. Dies ist dem Zufall geschuldet, da manchmal der p-Wert einfach dadurch unter das Signifikanzniveau fallen kann. Um dies zu vermeiden kann man  das Signifikanzniveau adjustieren. &lt;br /&gt;
&lt;br /&gt;
b) Was sind die Unterschiede zwischen der Prozedur nach Benjamini-Hochberg und der&lt;br /&gt;
Bonferroni-Korrektur?&lt;br /&gt;
&lt;br /&gt;
Bei der Bonferroni Korrektur wird der p-Wert aller Merkmale mit der Anzahl der Merkmale multipliziert, somit normaisiert man den p-Wert auf die Anzahl der Merkmale. Dies ist eine leichtere Methode allerdings kann sie zu mehreren Fehlern 2. Art führen. &lt;br /&gt;
&lt;br /&gt;
Bei der Benjamini-Hochberg Prozedur wird die False Discovery Rate (FDR oder Q) zusätzlich einbezogen. Anschließend werden die Werte sortiert und der kritische Wert wird bestimmt. Alle Werte die einen p-Wert kleiner als den kritischen Wert besitzen werden als signifikant betrachtet. Je kleiner die FDR ist, desto mehr nähern sich die Ergebnisse denen der Bonferroni Korrektur an.&lt;br /&gt;
&lt;br /&gt;
c) Wie funktioniert die Bonferroni-Korrektur?&lt;br /&gt;
&lt;br /&gt;
Zuerst berechnet man den korrigierten p-Wert mit folgender Formel:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt; p_\text{i*}=p_\text{i}*n&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
wobei &amp;lt;math&amp;gt; p_\text{i*}&amp;lt;/math&amp;gt; der korrigierte Wert ist, &lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;p_\text{i}&amp;lt;/math&amp;gt;der p-Wert für Merkmal i und n die Anzahl der Merkmale.&lt;br /&gt;
&lt;br /&gt;
Danach vergleicht man die korrigierten Werte mit dem Signifikanzniveau. Wenn der Wert kleiner ist als das Niveau, dann ist der Wert signifikant. &lt;br /&gt;
&lt;br /&gt;
d) Wie funktioniert die Benjamini-Hochberg Prozedur?&lt;br /&gt;
&lt;br /&gt;
Die Prozedur folgt den folgenden Schritten:&lt;br /&gt;
&lt;br /&gt;
- Sortiere die Merkmale nach den zugehörigen p-Werten aufsteigend. &lt;br /&gt;
&lt;br /&gt;
- Gib jedem p-Wert einen Rang zu (i) &lt;br /&gt;
&lt;br /&gt;
- Berechne für jeden p-Wert den BH kritischen Wert mit folgender Formel: &lt;br /&gt;
&lt;br /&gt;
BH = &amp;lt;math&amp;gt;\frac{i}{n}&amp;lt;/math&amp;gt; * Q wobei i der Rang ist, n die Anzahl der Merkmale (Stichprobenanzahl) und Q die False Discovery Rate&lt;br /&gt;
&lt;br /&gt;
- Vergleiche jeden p-Wert mit seinem kritischen BH-Wert. &lt;br /&gt;
&lt;br /&gt;
- der größte p-Wert der kleiner als der kritische BH Wert ist, ist der Wert ab dem alle p-Werte aufwärts H0 ablehnen, somit signifikant sind. &lt;br /&gt;
&lt;br /&gt;
e)  Bei der Analyse von Metaboliten im Blut von Patienten mit Niereninsuffizienz ist folgende&lt;br /&gt;
Tabelle entstanden. Zeige, welche der nachfolgenden p-Werte der Metabolite nach&lt;br /&gt;
Benjamini-Hochberg als Signifikant angesehen werden können (α = 0,05). Zeige, welche&lt;br /&gt;
Metabolite nach Bonferroni als signifikant angesehen werden können. Beschreibe die&lt;br /&gt;
Unterschiede!&lt;br /&gt;
&lt;br /&gt;
Bonferroni-Methode&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable sortable&amp;quot;&lt;br /&gt;
! Metabolit !! P !! P*&lt;br /&gt;
|-&lt;br /&gt;
! C-mannosyltryptophan&lt;br /&gt;
| 1.10E-03 || 0.0297&lt;br /&gt;
|-&lt;br /&gt;
! pseudouridine&lt;br /&gt;
| 3.70E-03 || 0.0999&lt;br /&gt;
|-&lt;br /&gt;
! O-sulfo-L-tyrosine&lt;br /&gt;
| 1.40E-02 || 0.378&lt;br /&gt;
|-&lt;br /&gt;
! margarate (17:0)&lt;br /&gt;
| 2.80E-01 || 7.56&lt;br /&gt;
|-&lt;br /&gt;
! erythronate*&lt;br /&gt;
| 2.80E-02 || 0.756&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylalanine&lt;br /&gt;
| 4.00E-02 || 1.08&lt;br /&gt;
|-&lt;br /&gt;
! 4-androsten-3beta,17beta-diol disulfate 2*&lt;br /&gt;
| 5.30E-03 || 0.1431&lt;br /&gt;
|-&lt;br /&gt;
! 10-nonadecenoate (19:1n9)&lt;br /&gt;
| 8.90E-01 || 24.03&lt;br /&gt;
|-&lt;br /&gt;
! 4-acetamidobutanoate&lt;br /&gt;
| 5.30E-02 || 1.431&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylthreonine&lt;br /&gt;
| 2.70E-01 || 7.29&lt;br /&gt;
|-&lt;br /&gt;
! eicosenoate (20:1n9 or 11)&lt;br /&gt;
| 4.80E-01 || 12.96&lt;br /&gt;
|-&lt;br /&gt;
! 15-methylpalmitate (isobar with 2- methylpalmitate)&lt;br /&gt;
| 4.70E-01 || 12.69&lt;br /&gt;
|-&lt;br /&gt;
! N1-methyladenosine&lt;br /&gt;
| 5.50E-02 || 1.485&lt;br /&gt;
|-&lt;br /&gt;
! X - 12092&lt;br /&gt;
| 1.90E-01 || 5.13&lt;br /&gt;
|-&lt;br /&gt;
! X - 12216&lt;br /&gt;
| 1.50E-02 || 0.405&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 4.50E-03 || 0.1215&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 1.30E-01 || 3.51&lt;br /&gt;
|-&lt;br /&gt;
! dihomo-linoleate (20:2n6)&lt;br /&gt;
| 8.60E-01 || 23.22&lt;br /&gt;
|-&lt;br /&gt;
! 1-docosahexaenoylglycerophosphocholine*&lt;br /&gt;
| 3.90E-02 || 1.053&lt;br /&gt;
|-&lt;br /&gt;
! kynurenine&lt;br /&gt;
| 4.60E-02 || 1.242&lt;br /&gt;
|-&lt;br /&gt;
! 5alpha-pregnan-3beta,20alpha-diol disulfate&lt;br /&gt;
| 1.30E-02 || 0.351&lt;br /&gt;
|-&lt;br /&gt;
! erythritol&lt;br /&gt;
| 1.20E-01 || 3.24&lt;br /&gt;
|-&lt;br /&gt;
! homocitrulline&lt;br /&gt;
| 2.50E-01 || 6.75&lt;br /&gt;
|-&lt;br /&gt;
! bradykinin, des-arg(9)&lt;br /&gt;
| 3.20E-01 || 8.64&lt;br /&gt;
|-&lt;br /&gt;
! X - 04494&lt;br /&gt;
| 9.40E-02 || 2.538&lt;br /&gt;
|-&lt;br /&gt;
! linoleate (18:2n6)&lt;br /&gt;
| 8.20E-01 || 22.14&lt;br /&gt;
|-&lt;br /&gt;
! mannose&lt;br /&gt;
| 2.00E-01 || 5.4&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
mit den p-Werten hat man die p*-Werte berechnet und dann mit dem Signifikanzniveau 0.05 verglichen. Der signifikante Wert ist C-mannoysltryptophan.&lt;br /&gt;
&lt;br /&gt;
Benjamini-Hochberg Prozedur:&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable sortable&amp;quot;&lt;br /&gt;
! Metabolit !! P !! Rang !! BHKW !! Differenz&lt;br /&gt;
|-&lt;br /&gt;
! C-mannosyltryptophan&lt;br /&gt;
| 1.10E-03 || 1 || 0.0019 || -0.0008&lt;br /&gt;
|-&lt;br /&gt;
! pseudouridine&lt;br /&gt;
| 3.70E-03 || 2 || 0.0037 || 0&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 4.50E-03 || 3 || 0.0056 || -0.0011&lt;br /&gt;
|-&lt;br /&gt;
! 4-androsten-3beta,17beta-diol disulfate 2*&lt;br /&gt;
| 5.30E-03 || 4 || 0.0074 || -0.0021&lt;br /&gt;
|-&lt;br /&gt;
! 5alpha-pregnan-3beta,20alpha-diol disulfate&lt;br /&gt;
| 1.30E-02 || 5 || 0.0093 || 0.0037&lt;br /&gt;
|-&lt;br /&gt;
! O-sulfo-L-tyrosine&lt;br /&gt;
| 1.40E-02 || 6 || 0.0111 || 0.0029&lt;br /&gt;
|-&lt;br /&gt;
! X - 12216&lt;br /&gt;
| 1.50E-02 || 7 || 0.013 || 0.002&lt;br /&gt;
|-&lt;br /&gt;
! erythronate*&lt;br /&gt;
| 2.80E-02 || 8 || 0.0148 || 0.0132&lt;br /&gt;
|-&lt;br /&gt;
! 1-docosahexaenoylglycerophosphocholine*&lt;br /&gt;
| 3.90E-02 || 9 || 0.0167 || 0.0223&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylalanine&lt;br /&gt;
| 4.00E-02 || 10 || 0.0185 || 0.0215&lt;br /&gt;
|-&lt;br /&gt;
! kynurenine&lt;br /&gt;
| 4.60E-02 || 11 || 0.0204 || 0.0256&lt;br /&gt;
|-&lt;br /&gt;
! 4-acetamidobutanoate&lt;br /&gt;
| 5.30E-02 || 12 || 0.0222 || 0.0308&lt;br /&gt;
|-&lt;br /&gt;
! N1-methyladenosine&lt;br /&gt;
| 5.50E-02 || 13 || 0.0241 || 0.0309&lt;br /&gt;
|-&lt;br /&gt;
! X - 04494&lt;br /&gt;
| 9.40E-02 || 14 || 0.0259 || 0.0681&lt;br /&gt;
|-&lt;br /&gt;
! erythritol&lt;br /&gt;
| 1.20E-01 || 15 || 0.0278 || 0.0922&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 1.30E-01 || 16 || 0.0296 || 0.1004&lt;br /&gt;
|-&lt;br /&gt;
! X - 12092&lt;br /&gt;
| 1.90E-01 || 17 || 0.0315 || 0.1585&lt;br /&gt;
|-&lt;br /&gt;
! mannose&lt;br /&gt;
| 2.00E-01 || 18 || 0.0333 || 0.1667&lt;br /&gt;
|-&lt;br /&gt;
! homocitrulline&lt;br /&gt;
| 2.50E-01 || 19 || 0.0352 || 0.2148&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylthreonine&lt;br /&gt;
| 2.70E-01 || 20 || 0.037 || 0.233&lt;br /&gt;
|-&lt;br /&gt;
! margarate (17:0)&lt;br /&gt;
| 2.80E-01 || 21 || 0.0389 || 0.2411&lt;br /&gt;
|-&lt;br /&gt;
! bradykinin, des-arg(9)&lt;br /&gt;
| 3.20E-01 || 22 || 0.0407 || 0.2793&lt;br /&gt;
|-&lt;br /&gt;
! 15-methylpalmitate (isobar with 2- methylpalmitate)&lt;br /&gt;
| 4.70E-01 || 23 || 0.0426 || 0.4274&lt;br /&gt;
|-&lt;br /&gt;
! eicosenoate (20:1n9 or 11)&lt;br /&gt;
| 4.80E-01 || 24 || 0.0444 || 0.4356&lt;br /&gt;
|-&lt;br /&gt;
! linoleate (18:2n6)&lt;br /&gt;
| 8.20E-01 || 25 || 0.0463 || 0.7737&lt;br /&gt;
|-&lt;br /&gt;
! dihomo-linoleate (20:2n6)&lt;br /&gt;
| 8.60E-01 || 26 || 0.0481 || 0.8119&lt;br /&gt;
|-&lt;br /&gt;
! 10-nonadecenoate (19:1n9)&lt;br /&gt;
| 8.90E-01 || 27 || 0.05 || 0.84&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
Hier ist der Cutoff bei Rang 4. Dieser Wert und alle darüber sind somit signifikant.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=7.Hypothesentests&amp;diff=190</id>
		<title>7.Hypothesentests</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=7.Hypothesentests&amp;diff=190"/>
		<updated>2019-07-20T20:55:06Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: /* Aufgabe 2 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war zum 29.05.2019 abzugeben&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1 ==&lt;br /&gt;
&lt;br /&gt;
a) Was misst ein t-Test und wie wird dieser berechnet? Was bedeutet der p-Wert?&lt;br /&gt;
&lt;br /&gt;
Der t-Test ist eine Methode der statistischen Analyse, bei der man testet ob ein Mittelwert einer Stichprobe von dem Erwartungswert der Grundgesamtheit abhängt. Mit Varianten des t-Tests kann man außerdem Nullhypothesen(H0) überprüfen ob zwei oder mehr Stichproben derselben Gesamtheit entspringen oder sich dafür zu signifikant unterscheiden. Der p-Wert ist eine Wahrscheinlichkeit und gibt hierbei das minimale Signifikanzniveau an, bei dem H0 nicht mehr gilt. Der p-Wert ist außerdem die Wahrscheinlichkeit mit der Stichproben zufällig die H0-Hypothese ablehnen.&lt;br /&gt;
&lt;br /&gt;
Für einen t-Test müssen zunächst Mittelwert, Standardabweichung und Freiheitsgrade für alle Stichproben berechnet werden.  &lt;br /&gt;
&lt;br /&gt;
Mittelwert: &amp;lt;math&amp;gt;\bar{x}_{\mathrm{arithm}} = \frac{1}{n} \sum_{i=1}^n{x_i} = \frac{x_1 + x_2 + \dotsb + x_n}{n}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Standardabweichung: &amp;lt;math&amp;gt;\tilde s := +\sqrt{\frac{1}{n} \sum \limits_{i=1}^n\left(x_i-\overline x\right)^2} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Freiheitsgrade: df = n-1&lt;br /&gt;
&lt;br /&gt;
In den Formeln ist &amp;lt;math&amp;gt;\bar{x} &amp;lt;/math&amp;gt; der Mittelwert, &amp;lt;math&amp;gt; x_1 &amp;lt;/math&amp;gt; etc. die einzelnen Werte der Stichprobe und n die Anzahl der Werte einer Stichprobe.&lt;br /&gt;
&lt;br /&gt;
Nachdem man diese Werte bestimmt hat, kann man mit verschiedenen Formeln (da es viele veschiedene t-Tests gibt) den t-Wert berechnen. Hier wird beispielsweise die Formel für den gepoolten Welch-t-test gezeigt: &lt;br /&gt;
:&amp;lt;math&amp;gt;&lt;br /&gt;
t \quad = \quad {\; \overline{x}_1 - \overline{x}_2 \; \over \sqrt{ \; {s_1^2 \over N_1} \; + \; {s_2^2 \over N_2} \quad }}\,&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Der berechnete Wert, wird dann in einer T-Tabelle nachgeschlagen und verglichen. Bevor man einen Wert heraussuchen kann muss ein Signifikanzniveau festgelegt werden, über dem H0 abgelehnt wird, z.B. 0,05. Dann kann man in der Tabelle den Referenz-t-Wert finden und wenn der berechnete t-Wert über dem Referenzwert ist, dann unterscheiden sich die Stichproben signifikant und können nicht als zwei Stichproben aus der gleichen Grundgesamtheit angesehen werden. &lt;br /&gt;
&lt;br /&gt;
b) Wie unterscheiden sich Student‘s t-Test und Welch‘s t-Test?&lt;br /&gt;
&lt;br /&gt;
Students t-Test sollte nur angewendet werden wenn die Grundgeamtheiten die gleiche Varianz&lt;br /&gt;
aufweisen. Wenn dies der Fall ist sollte der Welch-Test verwendet werden. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2 ==&lt;br /&gt;
&lt;br /&gt;
a) Welches statistische Problem tritt auf, wenn man eine statistische Signifikanz zw. zwei&lt;br /&gt;
Bedingungen für viele Gene testet? &lt;br /&gt;
&lt;br /&gt;
Problematisch ist, dass sich Fehler 1. Art (auch alpha-Fehler) anhäufen können. Dies tritt auf wenn bei einer Probe H0 wahr ist, jedoch der Test H1 feststellt. Dies ist dem Zufall geschuldet, da manchmal der p-Wert einfach dadurch unter das Signifikanzniveau fallen kann. Um dies zu vermeiden kann man  das Signifikanzniveau adjustieren. &lt;br /&gt;
&lt;br /&gt;
b) Was sind die Unterschiede zwischen der Prozedur nach Benjamini-Hochberg und der&lt;br /&gt;
Bonferroni-Korrektur?&lt;br /&gt;
&lt;br /&gt;
Bei der Bonferroni Korrektur wird der p-Wert aller Merkmale mit der Anzahl der Merkmale multipliziert, somit normaisiert man den p-Wert auf die Anzahl der Merkmale. Dies ist eine leichtere Methode allerdings kann sie zu mehreren Fehlern 2. Art führen. &lt;br /&gt;
&lt;br /&gt;
Bei der Benjamini-Hochberg Prozedur wird die False Discovery Rate (FDR oder Q) zusätzlich einbezogen. Anschließend werden die Werte sortiert und der kritische Wert wird bestimmt. Alle Werte die einen p-Wert kleiner als den kritischen Wert besitzen werden als signifikant betrachtet. Je kleiner die FDR ist, desto mehr nähern sich die Ergebnisse denen der Bonferroni Korrektur an.&lt;br /&gt;
&lt;br /&gt;
c) Wie funktioniert die Bonferroni-Korrektur?&lt;br /&gt;
&lt;br /&gt;
Zuerst berechnet man den korrigierten p-Wert mit folgender Formel:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt; p_\text{i*}=p_\text{i}*n&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
wobei &amp;lt;math&amp;gt; p_\text{i*}/math&amp;gt; der korrigierte Wert ist, &lt;br /&gt;
&lt;br /&gt;
p_\text{i} der p-Wert für Merkmal i und n die Anzahl der Merkmale.&lt;br /&gt;
&lt;br /&gt;
Danach vergleicht man die korrigierten Werte mit dem Signifikanzniveau. Wenn der Wert kleiner ist als das Niveau, dann ist der Wert signifikant. &lt;br /&gt;
&lt;br /&gt;
d) Wie funktioniert die Benjamini-Hochberg Prozedur?&lt;br /&gt;
&lt;br /&gt;
Die Prozedur folgt den folgenden Schritten:&lt;br /&gt;
&lt;br /&gt;
- Sortiere die Merkmale nach den zugehörigen p-Werten aufsteigend. &lt;br /&gt;
&lt;br /&gt;
- Gib jedem p-Wert einen Rang zu (i) &lt;br /&gt;
&lt;br /&gt;
- Berechne für jeden p-Wert den BH kritischen Wert mit folgender Formel: &lt;br /&gt;
&lt;br /&gt;
BH = \frac{i}{n} * Q wobei i der Rang ist, n die Anzahl der Merkmale (Stichprobenanzahl) und Q die False Discovery Rate&lt;br /&gt;
&lt;br /&gt;
- Vergleiche jeden p-Wert mit seinem kritischen BH-Wert. &lt;br /&gt;
&lt;br /&gt;
- der größte p-Wert der kleiner als der kritische BH Wert ist, ist der Wert ab dem alle p-Werte aufwärts H0 ablehnen, somit signifikant sind. &lt;br /&gt;
&lt;br /&gt;
e)  Bei der Analyse von Metaboliten im Blut von Patienten mit Niereninsuffizienz ist folgende&lt;br /&gt;
Tabelle entstanden. Zeige, welche der nachfolgenden p-Werte der Metabolite nach&lt;br /&gt;
Benjamini-Hochberg als Signifikant angesehen werden können (α = 0,05). Zeige, welche&lt;br /&gt;
Metabolite nach Bonferroni als signifikant angesehen werden können. Beschreibe die&lt;br /&gt;
Unterschiede!&lt;br /&gt;
&lt;br /&gt;
Bonferroni-Methode&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable sortable&amp;quot;&lt;br /&gt;
! Metabolit !! P !! P*&lt;br /&gt;
|-&lt;br /&gt;
! C-mannosyltryptophan&lt;br /&gt;
| 1.10E-03 || 0.0297&lt;br /&gt;
|-&lt;br /&gt;
! pseudouridine&lt;br /&gt;
| 3.70E-03 || 0.0999&lt;br /&gt;
|-&lt;br /&gt;
! O-sulfo-L-tyrosine&lt;br /&gt;
| 1.40E-02 || 0.378&lt;br /&gt;
|-&lt;br /&gt;
! margarate (17:0)&lt;br /&gt;
| 2.80E-01 || 7.56&lt;br /&gt;
|-&lt;br /&gt;
! erythronate*&lt;br /&gt;
| 2.80E-02 || 0.756&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylalanine&lt;br /&gt;
| 4.00E-02 || 1.08&lt;br /&gt;
|-&lt;br /&gt;
! 4-androsten-3beta,17beta-diol disulfate 2*&lt;br /&gt;
| 5.30E-03 || 0.1431&lt;br /&gt;
|-&lt;br /&gt;
! 10-nonadecenoate (19:1n9)&lt;br /&gt;
| 8.90E-01 || 24.03&lt;br /&gt;
|-&lt;br /&gt;
! 4-acetamidobutanoate&lt;br /&gt;
| 5.30E-02 || 1.431&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylthreonine&lt;br /&gt;
| 2.70E-01 || 7.29&lt;br /&gt;
|-&lt;br /&gt;
! eicosenoate (20:1n9 or 11)&lt;br /&gt;
| 4.80E-01 || 12.96&lt;br /&gt;
|-&lt;br /&gt;
! 15-methylpalmitate (isobar with 2- methylpalmitate)&lt;br /&gt;
| 4.70E-01 || 12.69&lt;br /&gt;
|-&lt;br /&gt;
! N1-methyladenosine&lt;br /&gt;
| 5.50E-02 || 1.485&lt;br /&gt;
|-&lt;br /&gt;
! X - 12092&lt;br /&gt;
| 1.90E-01 || 5.13&lt;br /&gt;
|-&lt;br /&gt;
! X - 12216&lt;br /&gt;
| 1.50E-02 || 0.405&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 4.50E-03 || 0.1215&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 1.30E-01 || 3.51&lt;br /&gt;
|-&lt;br /&gt;
! dihomo-linoleate (20:2n6)&lt;br /&gt;
| 8.60E-01 || 23.22&lt;br /&gt;
|-&lt;br /&gt;
! 1-docosahexaenoylglycerophosphocholine*&lt;br /&gt;
| 3.90E-02 || 1.053&lt;br /&gt;
|-&lt;br /&gt;
! kynurenine&lt;br /&gt;
| 4.60E-02 || 1.242&lt;br /&gt;
|-&lt;br /&gt;
! 5alpha-pregnan-3beta,20alpha-diol disulfate&lt;br /&gt;
| 1.30E-02 || 0.351&lt;br /&gt;
|-&lt;br /&gt;
! erythritol&lt;br /&gt;
| 1.20E-01 || 3.24&lt;br /&gt;
|-&lt;br /&gt;
! homocitrulline&lt;br /&gt;
| 2.50E-01 || 6.75&lt;br /&gt;
|-&lt;br /&gt;
! bradykinin, des-arg(9)&lt;br /&gt;
| 3.20E-01 || 8.64&lt;br /&gt;
|-&lt;br /&gt;
! X - 04494&lt;br /&gt;
| 9.40E-02 || 2.538&lt;br /&gt;
|-&lt;br /&gt;
! linoleate (18:2n6)&lt;br /&gt;
| 8.20E-01 || 22.14&lt;br /&gt;
|-&lt;br /&gt;
! mannose&lt;br /&gt;
| 2.00E-01 || 5.4&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
mit den p-Werten hat man die p*-Werte berechnet und dann mit dem Signifikanzniveau 0.05 verglichen. Der signifikante Wert ist C-mannoysltryptophan.&lt;br /&gt;
&lt;br /&gt;
Benjamini-Hochberg Prozedur:&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable sortable&amp;quot;&lt;br /&gt;
! Metabolit !! P !! Rang !! BHKW !! Differenz&lt;br /&gt;
|-&lt;br /&gt;
! C-mannosyltryptophan&lt;br /&gt;
| 1.10E-03 || 1 || 0.0019 || -0.0008&lt;br /&gt;
|-&lt;br /&gt;
! pseudouridine&lt;br /&gt;
| 3.70E-03 || 2 || 0.0037 || 0&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 4.50E-03 || 3 || 0.0056 || -0.0011&lt;br /&gt;
|-&lt;br /&gt;
! 4-androsten-3beta,17beta-diol disulfate 2*&lt;br /&gt;
| 5.30E-03 || 4 || 0.0074 || -0.0021&lt;br /&gt;
|-&lt;br /&gt;
! 5alpha-pregnan-3beta,20alpha-diol disulfate&lt;br /&gt;
| 1.30E-02 || 5 || 0.0093 || 0.0037&lt;br /&gt;
|-&lt;br /&gt;
! O-sulfo-L-tyrosine&lt;br /&gt;
| 1.40E-02 || 6 || 0.0111 || 0.0029&lt;br /&gt;
|-&lt;br /&gt;
! X - 12216&lt;br /&gt;
| 1.50E-02 || 7 || 0.013 || 0.002&lt;br /&gt;
|-&lt;br /&gt;
! erythronate*&lt;br /&gt;
| 2.80E-02 || 8 || 0.0148 || 0.0132&lt;br /&gt;
|-&lt;br /&gt;
! 1-docosahexaenoylglycerophosphocholine*&lt;br /&gt;
| 3.90E-02 || 9 || 0.0167 || 0.0223&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylalanine&lt;br /&gt;
| 4.00E-02 || 10 || 0.0185 || 0.0215&lt;br /&gt;
|-&lt;br /&gt;
! kynurenine&lt;br /&gt;
| 4.60E-02 || 11 || 0.0204 || 0.0256&lt;br /&gt;
|-&lt;br /&gt;
! 4-acetamidobutanoate&lt;br /&gt;
| 5.30E-02 || 12 || 0.0222 || 0.0308&lt;br /&gt;
|-&lt;br /&gt;
! N1-methyladenosine&lt;br /&gt;
| 5.50E-02 || 13 || 0.0241 || 0.0309&lt;br /&gt;
|-&lt;br /&gt;
! X - 04494&lt;br /&gt;
| 9.40E-02 || 14 || 0.0259 || 0.0681&lt;br /&gt;
|-&lt;br /&gt;
! erythritol&lt;br /&gt;
| 1.20E-01 || 15 || 0.0278 || 0.0922&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 1.30E-01 || 16 || 0.0296 || 0.1004&lt;br /&gt;
|-&lt;br /&gt;
! X - 12092&lt;br /&gt;
| 1.90E-01 || 17 || 0.0315 || 0.1585&lt;br /&gt;
|-&lt;br /&gt;
! mannose&lt;br /&gt;
| 2.00E-01 || 18 || 0.0333 || 0.1667&lt;br /&gt;
|-&lt;br /&gt;
! homocitrulline&lt;br /&gt;
| 2.50E-01 || 19 || 0.0352 || 0.2148&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylthreonine&lt;br /&gt;
| 2.70E-01 || 20 || 0.037 || 0.233&lt;br /&gt;
|-&lt;br /&gt;
! margarate (17:0)&lt;br /&gt;
| 2.80E-01 || 21 || 0.0389 || 0.2411&lt;br /&gt;
|-&lt;br /&gt;
! bradykinin, des-arg(9)&lt;br /&gt;
| 3.20E-01 || 22 || 0.0407 || 0.2793&lt;br /&gt;
|-&lt;br /&gt;
! 15-methylpalmitate (isobar with 2- methylpalmitate)&lt;br /&gt;
| 4.70E-01 || 23 || 0.0426 || 0.4274&lt;br /&gt;
|-&lt;br /&gt;
! eicosenoate (20:1n9 or 11)&lt;br /&gt;
| 4.80E-01 || 24 || 0.0444 || 0.4356&lt;br /&gt;
|-&lt;br /&gt;
! linoleate (18:2n6)&lt;br /&gt;
| 8.20E-01 || 25 || 0.0463 || 0.7737&lt;br /&gt;
|-&lt;br /&gt;
! dihomo-linoleate (20:2n6)&lt;br /&gt;
| 8.60E-01 || 26 || 0.0481 || 0.8119&lt;br /&gt;
|-&lt;br /&gt;
! 10-nonadecenoate (19:1n9)&lt;br /&gt;
| 8.90E-01 || 27 || 0.05 || 0.84&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
Hier ist der Cutoff bei Rang 4. Dieser Wert und alle darüber sind somit signifikant.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=7.Hypothesentests&amp;diff=189</id>
		<title>7.Hypothesentests</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=7.Hypothesentests&amp;diff=189"/>
		<updated>2019-07-20T20:53:54Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war zum 29.05.2019 abzugeben&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1 ==&lt;br /&gt;
&lt;br /&gt;
a) Was misst ein t-Test und wie wird dieser berechnet? Was bedeutet der p-Wert?&lt;br /&gt;
&lt;br /&gt;
Der t-Test ist eine Methode der statistischen Analyse, bei der man testet ob ein Mittelwert einer Stichprobe von dem Erwartungswert der Grundgesamtheit abhängt. Mit Varianten des t-Tests kann man außerdem Nullhypothesen(H0) überprüfen ob zwei oder mehr Stichproben derselben Gesamtheit entspringen oder sich dafür zu signifikant unterscheiden. Der p-Wert ist eine Wahrscheinlichkeit und gibt hierbei das minimale Signifikanzniveau an, bei dem H0 nicht mehr gilt. Der p-Wert ist außerdem die Wahrscheinlichkeit mit der Stichproben zufällig die H0-Hypothese ablehnen.&lt;br /&gt;
&lt;br /&gt;
Für einen t-Test müssen zunächst Mittelwert, Standardabweichung und Freiheitsgrade für alle Stichproben berechnet werden.  &lt;br /&gt;
&lt;br /&gt;
Mittelwert: &amp;lt;math&amp;gt;\bar{x}_{\mathrm{arithm}} = \frac{1}{n} \sum_{i=1}^n{x_i} = \frac{x_1 + x_2 + \dotsb + x_n}{n}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Standardabweichung: &amp;lt;math&amp;gt;\tilde s := +\sqrt{\frac{1}{n} \sum \limits_{i=1}^n\left(x_i-\overline x\right)^2} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Freiheitsgrade: df = n-1&lt;br /&gt;
&lt;br /&gt;
In den Formeln ist &amp;lt;math&amp;gt;\bar{x} &amp;lt;/math&amp;gt; der Mittelwert, &amp;lt;math&amp;gt; x_1 &amp;lt;/math&amp;gt; etc. die einzelnen Werte der Stichprobe und n die Anzahl der Werte einer Stichprobe.&lt;br /&gt;
&lt;br /&gt;
Nachdem man diese Werte bestimmt hat, kann man mit verschiedenen Formeln (da es viele veschiedene t-Tests gibt) den t-Wert berechnen. Hier wird beispielsweise die Formel für den gepoolten Welch-t-test gezeigt: &lt;br /&gt;
:&amp;lt;math&amp;gt;&lt;br /&gt;
t \quad = \quad {\; \overline{x}_1 - \overline{x}_2 \; \over \sqrt{ \; {s_1^2 \over N_1} \; + \; {s_2^2 \over N_2} \quad }}\,&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Der berechnete Wert, wird dann in einer T-Tabelle nachgeschlagen und verglichen. Bevor man einen Wert heraussuchen kann muss ein Signifikanzniveau festgelegt werden, über dem H0 abgelehnt wird, z.B. 0,05. Dann kann man in der Tabelle den Referenz-t-Wert finden und wenn der berechnete t-Wert über dem Referenzwert ist, dann unterscheiden sich die Stichproben signifikant und können nicht als zwei Stichproben aus der gleichen Grundgesamtheit angesehen werden. &lt;br /&gt;
&lt;br /&gt;
b) Wie unterscheiden sich Student‘s t-Test und Welch‘s t-Test?&lt;br /&gt;
&lt;br /&gt;
Students t-Test sollte nur angewendet werden wenn die Grundgeamtheiten die gleiche Varianz&lt;br /&gt;
aufweisen. Wenn dies der Fall ist sollte der Welch-Test verwendet werden. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2 ==&lt;br /&gt;
&lt;br /&gt;
a) Welches statistische Problem tritt auf, wenn man eine statistische Signifikanz zw. zwei&lt;br /&gt;
Bedingungen für viele Gene testet? &lt;br /&gt;
&lt;br /&gt;
Problematisch ist, dass sich Fehler 1. Art (auch alpha-Fehler) anhäufen können. Dies tritt auf wenn bei einer Probe H0 wahr ist, jedoch der Test H1 feststellt. Dies ist dem Zufall geschuldet, da manchmal der p-Wert einfach dadurch unter das Signifikanzniveau fallen kann. Um dies zu vermeiden kann man  das Signifikanzniveau adjustieren. &lt;br /&gt;
&lt;br /&gt;
b) Was sind die Unterschiede zwischen der Prozedur nach Benjamini-Hochberg und der&lt;br /&gt;
Bonferroni-Korrektur?&lt;br /&gt;
&lt;br /&gt;
Bei der Bonferroni Korrektur wird der p-Wert aller Merkmale mit der Anzahl der Merkmale multipliziert, somit normaisiert man den p-Wert auf die Anzahl der Merkmale. Dies ist eine leichtere Methode allerdings kann sie zu mehreren Fehlern 2. Art führen. &lt;br /&gt;
&lt;br /&gt;
Bei der Benjamini-Hochberg Prozedur wird die False Discovery Rate (FDR oder Q) zusätzlich einbezogen. Anschließend werden die Werte sortiert und der kritische Wert wird bestimmt. Alle Werte die einen p-Wert kleiner als den kritischen Wert besitzen werden als signifikant betrachtet. Je kleiner die FDR ist, desto mehr nähern sich die Ergebnisse denen der Bonferroni Korrektur an.&lt;br /&gt;
&lt;br /&gt;
c) Wie funktioniert die Bonferroni-Korrektur?&lt;br /&gt;
&lt;br /&gt;
Zuerst berechnet man den korrigierten p-Wert mit folgender Formel:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt; p_\text{i*}=p_\text{i}*n&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
wobei &amp;lt;math&amp;gt; p_\text{i*}/math&amp;gt; der korrigierte Wert ist, &lt;br /&gt;
&lt;br /&gt;
p_\text{i} der p-Wert für Merkmal i und n die Anzahl der Merkmale.&lt;br /&gt;
&lt;br /&gt;
Danach vergleicht man die korrigierten Werte mit dem Signifikanzniveau. Wenn der Wert kleiner ist als das Niveau, dann ist der Wert signifikant. &lt;br /&gt;
&lt;br /&gt;
d) Wie funktioniert die Benjamini-Hochberg Prozedur?&lt;br /&gt;
&lt;br /&gt;
Die Prozedur folgt den folgenden Schritten:&lt;br /&gt;
&lt;br /&gt;
- Sortiere die Merkmale nach den zugehörigen p-Werten aufsteigend. &lt;br /&gt;
&lt;br /&gt;
- Gib jedem p-Wert einen Rang zu (i) &lt;br /&gt;
&lt;br /&gt;
- Berechne für jeden p-Wert den BH kritischen Wert mit folgender Formel: &lt;br /&gt;
&lt;br /&gt;
BH = \frac{i}n * Q wobei i der Rang ist, n die Anzahl der Merkmale (Stichprobenanzahl) und Q die False Discovery Rate&lt;br /&gt;
&lt;br /&gt;
- Vergleiche jeden p-Wert mit seinem kritischen BH-Wert. &lt;br /&gt;
&lt;br /&gt;
- der größte p-Wert der kleiner als der kritische BH Wert ist, ist der Wert ab dem alle p-Werte aufwärts H0 ablehnen, somit signifikant sind. &lt;br /&gt;
&lt;br /&gt;
e)  Bei der Analyse von Metaboliten im Blut von Patienten mit Niereninsuffizienz ist folgende&lt;br /&gt;
Tabelle entstanden. Zeige, welche der nachfolgenden p-Werte der Metabolite nach&lt;br /&gt;
Benjamini-Hochberg als Signifikant angesehen werden können (α = 0,05). Zeige, welche&lt;br /&gt;
Metabolite nach Bonferroni als signifikant angesehen werden können. Beschreibe die&lt;br /&gt;
Unterschiede!&lt;br /&gt;
&lt;br /&gt;
Bonferroni-Methode&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable sortable&amp;quot;&lt;br /&gt;
! Metabolit !! P !! P*&lt;br /&gt;
|-&lt;br /&gt;
! C-mannosyltryptophan&lt;br /&gt;
| 1.10E-03 || 0.0297&lt;br /&gt;
|-&lt;br /&gt;
! pseudouridine&lt;br /&gt;
| 3.70E-03 || 0.0999&lt;br /&gt;
|-&lt;br /&gt;
! O-sulfo-L-tyrosine&lt;br /&gt;
| 1.40E-02 || 0.378&lt;br /&gt;
|-&lt;br /&gt;
! margarate (17:0)&lt;br /&gt;
| 2.80E-01 || 7.56&lt;br /&gt;
|-&lt;br /&gt;
! erythronate*&lt;br /&gt;
| 2.80E-02 || 0.756&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylalanine&lt;br /&gt;
| 4.00E-02 || 1.08&lt;br /&gt;
|-&lt;br /&gt;
! 4-androsten-3beta,17beta-diol disulfate 2*&lt;br /&gt;
| 5.30E-03 || 0.1431&lt;br /&gt;
|-&lt;br /&gt;
! 10-nonadecenoate (19:1n9)&lt;br /&gt;
| 8.90E-01 || 24.03&lt;br /&gt;
|-&lt;br /&gt;
! 4-acetamidobutanoate&lt;br /&gt;
| 5.30E-02 || 1.431&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylthreonine&lt;br /&gt;
| 2.70E-01 || 7.29&lt;br /&gt;
|-&lt;br /&gt;
! eicosenoate (20:1n9 or 11)&lt;br /&gt;
| 4.80E-01 || 12.96&lt;br /&gt;
|-&lt;br /&gt;
! 15-methylpalmitate (isobar with 2- methylpalmitate)&lt;br /&gt;
| 4.70E-01 || 12.69&lt;br /&gt;
|-&lt;br /&gt;
! N1-methyladenosine&lt;br /&gt;
| 5.50E-02 || 1.485&lt;br /&gt;
|-&lt;br /&gt;
! X - 12092&lt;br /&gt;
| 1.90E-01 || 5.13&lt;br /&gt;
|-&lt;br /&gt;
! X - 12216&lt;br /&gt;
| 1.50E-02 || 0.405&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 4.50E-03 || 0.1215&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 1.30E-01 || 3.51&lt;br /&gt;
|-&lt;br /&gt;
! dihomo-linoleate (20:2n6)&lt;br /&gt;
| 8.60E-01 || 23.22&lt;br /&gt;
|-&lt;br /&gt;
! 1-docosahexaenoylglycerophosphocholine*&lt;br /&gt;
| 3.90E-02 || 1.053&lt;br /&gt;
|-&lt;br /&gt;
! kynurenine&lt;br /&gt;
| 4.60E-02 || 1.242&lt;br /&gt;
|-&lt;br /&gt;
! 5alpha-pregnan-3beta,20alpha-diol disulfate&lt;br /&gt;
| 1.30E-02 || 0.351&lt;br /&gt;
|-&lt;br /&gt;
! erythritol&lt;br /&gt;
| 1.20E-01 || 3.24&lt;br /&gt;
|-&lt;br /&gt;
! homocitrulline&lt;br /&gt;
| 2.50E-01 || 6.75&lt;br /&gt;
|-&lt;br /&gt;
! bradykinin, des-arg(9)&lt;br /&gt;
| 3.20E-01 || 8.64&lt;br /&gt;
|-&lt;br /&gt;
! X - 04494&lt;br /&gt;
| 9.40E-02 || 2.538&lt;br /&gt;
|-&lt;br /&gt;
! linoleate (18:2n6)&lt;br /&gt;
| 8.20E-01 || 22.14&lt;br /&gt;
|-&lt;br /&gt;
! mannose&lt;br /&gt;
| 2.00E-01 || 5.4&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
mit den p-Werten hat man die p*-Werte berechnet und dann mit dem Signifikanzniveau 0.05 verglichen. Der signifikante Wert ist C-mannoysltryptophan.&lt;br /&gt;
&lt;br /&gt;
Benjamini-Hochberg Prozedur:&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable sortable&amp;quot;&lt;br /&gt;
! Metabolit !! P !! Rang !! BHKW !! Differenz&lt;br /&gt;
|-&lt;br /&gt;
! C-mannosyltryptophan&lt;br /&gt;
| 1.10E-03 || 1 || 0.0019 || -0.0008&lt;br /&gt;
|-&lt;br /&gt;
! pseudouridine&lt;br /&gt;
| 3.70E-03 || 2 || 0.0037 || 0&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 4.50E-03 || 3 || 0.0056 || -0.0011&lt;br /&gt;
|-&lt;br /&gt;
! 4-androsten-3beta,17beta-diol disulfate 2*&lt;br /&gt;
| 5.30E-03 || 4 || 0.0074 || -0.0021&lt;br /&gt;
|-&lt;br /&gt;
! 5alpha-pregnan-3beta,20alpha-diol disulfate&lt;br /&gt;
| 1.30E-02 || 5 || 0.0093 || 0.0037&lt;br /&gt;
|-&lt;br /&gt;
! O-sulfo-L-tyrosine&lt;br /&gt;
| 1.40E-02 || 6 || 0.0111 || 0.0029&lt;br /&gt;
|-&lt;br /&gt;
! X - 12216&lt;br /&gt;
| 1.50E-02 || 7 || 0.013 || 0.002&lt;br /&gt;
|-&lt;br /&gt;
! erythronate*&lt;br /&gt;
| 2.80E-02 || 8 || 0.0148 || 0.0132&lt;br /&gt;
|-&lt;br /&gt;
! 1-docosahexaenoylglycerophosphocholine*&lt;br /&gt;
| 3.90E-02 || 9 || 0.0167 || 0.0223&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylalanine&lt;br /&gt;
| 4.00E-02 || 10 || 0.0185 || 0.0215&lt;br /&gt;
|-&lt;br /&gt;
! kynurenine&lt;br /&gt;
| 4.60E-02 || 11 || 0.0204 || 0.0256&lt;br /&gt;
|-&lt;br /&gt;
! 4-acetamidobutanoate&lt;br /&gt;
| 5.30E-02 || 12 || 0.0222 || 0.0308&lt;br /&gt;
|-&lt;br /&gt;
! N1-methyladenosine&lt;br /&gt;
| 5.50E-02 || 13 || 0.0241 || 0.0309&lt;br /&gt;
|-&lt;br /&gt;
! X - 04494&lt;br /&gt;
| 9.40E-02 || 14 || 0.0259 || 0.0681&lt;br /&gt;
|-&lt;br /&gt;
! erythritol&lt;br /&gt;
| 1.20E-01 || 15 || 0.0278 || 0.0922&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylornithine&lt;br /&gt;
| 1.30E-01 || 16 || 0.0296 || 0.1004&lt;br /&gt;
|-&lt;br /&gt;
! X - 12092&lt;br /&gt;
| 1.90E-01 || 17 || 0.0315 || 0.1585&lt;br /&gt;
|-&lt;br /&gt;
! mannose&lt;br /&gt;
| 2.00E-01 || 18 || 0.0333 || 0.1667&lt;br /&gt;
|-&lt;br /&gt;
! homocitrulline&lt;br /&gt;
| 2.50E-01 || 19 || 0.0352 || 0.2148&lt;br /&gt;
|-&lt;br /&gt;
! N-acetylthreonine&lt;br /&gt;
| 2.70E-01 || 20 || 0.037 || 0.233&lt;br /&gt;
|-&lt;br /&gt;
! margarate (17:0)&lt;br /&gt;
| 2.80E-01 || 21 || 0.0389 || 0.2411&lt;br /&gt;
|-&lt;br /&gt;
! bradykinin, des-arg(9)&lt;br /&gt;
| 3.20E-01 || 22 || 0.0407 || 0.2793&lt;br /&gt;
|-&lt;br /&gt;
! 15-methylpalmitate (isobar with 2- methylpalmitate)&lt;br /&gt;
| 4.70E-01 || 23 || 0.0426 || 0.4274&lt;br /&gt;
|-&lt;br /&gt;
! eicosenoate (20:1n9 or 11)&lt;br /&gt;
| 4.80E-01 || 24 || 0.0444 || 0.4356&lt;br /&gt;
|-&lt;br /&gt;
! linoleate (18:2n6)&lt;br /&gt;
| 8.20E-01 || 25 || 0.0463 || 0.7737&lt;br /&gt;
|-&lt;br /&gt;
! dihomo-linoleate (20:2n6)&lt;br /&gt;
| 8.60E-01 || 26 || 0.0481 || 0.8119&lt;br /&gt;
|-&lt;br /&gt;
! 10-nonadecenoate (19:1n9)&lt;br /&gt;
| 8.90E-01 || 27 || 0.05 || 0.84&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
Hier ist der Cutoff bei Rang 4. Dieser Wert und alle darüber sind somit signifikant.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=7.Hypothesentests&amp;diff=188</id>
		<title>7.Hypothesentests</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=7.Hypothesentests&amp;diff=188"/>
		<updated>2019-07-16T18:21:08Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war zum 29.05.2019 abzugeben&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1 ==&lt;br /&gt;
&lt;br /&gt;
a) Was misst ein t-Test und wie wird dieser berechnet? Was bedeutet der p-Wert?&lt;br /&gt;
&lt;br /&gt;
Der t-Test ist eine Methode der statistischen Analyse, bei der man testet ob ein Mittelwert einer Stichprobe von dem Erwartungswert der Grundgesamtheit abhängt. Mit Varianten des t-Tests kann man außerdem Nullhypothesen(H0) überprüfen ob zwei oder mehr Stichproben derselben Gesamtheit entspringen oder sich dafür zu signifikant unterscheiden. Der p-Wert ist eine Wahrscheinlichkeit und gibt hierbei das minimale Signifikanzniveau an, bei dem H0 nicht mehr gilt. Der p-Wert ist außerdem die Wahrscheinlichkeit mit der Stichproben zufällig die H0-Hypothese ablehnen.&lt;br /&gt;
&lt;br /&gt;
Für einen t-Test müssen zunächst Mittelwert, Standardabweichung und Freiheitsgrade für alle Stichproben berechnet werden.  &lt;br /&gt;
&lt;br /&gt;
Mittelwert: &amp;lt;math&amp;gt;\bar{x}_{\mathrm{arithm}} = \frac{1}{n} \sum_{i=1}^n{x_i} = \frac{x_1 + x_2 + \dotsb + x_n}{n}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Standardabweichung: &amp;lt;math&amp;gt;\tilde s := +\sqrt{\frac{1}{n} \sum \limits_{i=1}^n\left(x_i-\overline x\right)^2} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Freiheitsgrade: df = n-1&lt;br /&gt;
&lt;br /&gt;
In den Formeln ist &amp;lt;math&amp;gt;\bar{x} &amp;lt;/math&amp;gt; der Mittelwert, &amp;lt;math&amp;gt; x_1 &amp;lt;/math&amp;gt; etc. die einzelnen Werte der Stichprobe und n die Anzahl der Werte einer Stichprobe.&lt;br /&gt;
&lt;br /&gt;
Nachdem man diese Werte bestimmt hat, kann man mit verschiedenen Formeln (da es viele veschiedene t-Tests gibt) den t-Wert berechnen. Hier wird beispielsweise die Formel für den gepoolten Welch-t-test gezeigt: &lt;br /&gt;
:&amp;lt;math&amp;gt;&lt;br /&gt;
t \quad = \quad {\; \overline{x}_1 - \overline{x}_2 \; \over \sqrt{ \; {s_1^2 \over N_1} \; + \; {s_2^2 \over N_2} \quad }}\,&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Der berechnete Wert, wird dann in einer T-Tabelle nachgeschlagen und verglichen. Bevor man einen Wert heraussuchen kann muss ein Signifikanzniveau festgelegt werden, über dem H0 abgelehnt wird, z.B. 0,05. Dann kann man in der Tabelle den Referenz-t-Wert finden und wenn der berechnete t-Wert über dem Referenzwert ist, dann unterscheiden sich die Stichproben signifikant und können nicht als zwei Stichproben aus der gleichen Grundgesamtheit angesehen werden. &lt;br /&gt;
&lt;br /&gt;
b) Wie unterscheiden sich Student‘s t-Test und Welch‘s t-Test?&lt;br /&gt;
&lt;br /&gt;
Students t-Test sollte nur angewendet werden wenn die Grundgeamtheiten die gleiche Varianz&lt;br /&gt;
aufweisen. Wenn dies der Fall ist sollte der Welch-Test verwendet werden. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2 ==&lt;br /&gt;
&lt;br /&gt;
a) Welches statistische Problem tritt auf, wenn man eine statistische Signifikanz zw. zwei&lt;br /&gt;
Bedingungen für viele Gene testet? &lt;br /&gt;
&lt;br /&gt;
Problematisch ist, dass sich Fehler 1. Art (auch alpha-Fehler) anhäufen können. Dies tritt auf wenn bei einer Probe H0 wahr ist, jedoch der Test H1 feststellt. Um dies zu vermeiden muss man Signifikanzniveau oder p-Wert adjustieren.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=7.Hypothesentests&amp;diff=187</id>
		<title>7.Hypothesentests</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=7.Hypothesentests&amp;diff=187"/>
		<updated>2019-07-16T18:06:37Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: Created page with &amp;quot;Diese Übung war zum 29.05.2019 abzugeben  == Aufgabe 1 ==  a) Was misst ein t-Test und wie wird dieser berechnet? Was bedeutet der p-Wert?  Der t-Test ist eine Methode der st...&amp;quot;&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war zum 29.05.2019 abzugeben&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1 ==&lt;br /&gt;
&lt;br /&gt;
a) Was misst ein t-Test und wie wird dieser berechnet? Was bedeutet der p-Wert?&lt;br /&gt;
&lt;br /&gt;
Der t-Test ist eine Methode der statistischen Analyse, bei der man testet ob ein Mittelwert einer Stichprobe von dem Erwartungswert der Grundgesamtheit abhängt. Mit Varianten des t-Tests kann man außerdem Nullhypothesen(H0) überprüfen ob zwei oder mehr Stichproben derselben Gesamtheit entspringen oder sich dafür zu signifikant unterscheiden. Der p-Wert gibt hierbei das minimale Signifikanzniveau an, bei dem H0 nicht mehr gilt. Der p-Wert ist außerdem die Wahrscheinlichkeit mit der Stichproben zufällig die H0-Hypothese ablehnen.&lt;br /&gt;
&lt;br /&gt;
Für einen t-Test müssen zunächst Mittelwert, Standardabweichung und Freiheitsgrade für alle Stichproben berechnet werden.  &lt;br /&gt;
&lt;br /&gt;
Mittelwert: &amp;lt;math&amp;gt;\bar{x}_{\mathrm{arithm}} = \frac{1}{n} \sum_{i=1}^n{x_i} = \frac{x_1 + x_2 + \dotsb + x_n}{n}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Standardabweichung: &amp;lt;math&amp;gt;\tilde s := +\sqrt{\frac{1}{n} \sum \limits_{i=1}^n\left(x_i-\overline x\right)^2} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Freiheitsgrade: n-1&lt;br /&gt;
&lt;br /&gt;
In den Formeln ist &amp;lt;math&amp;gt;\bar{x} &amp;lt;/math&amp;gt; der Mittelwert, &amp;lt;math&amp;gt; x_1 &amp;lt;/math&amp;gt; etc. die einzelnen Werte der Stichprobe und n die Anzahl der Werte einer Stichprobe&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5.Transkriptom_RNA_Seq_2&amp;diff=174</id>
		<title>5.Transkriptom RNA Seq 2</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5.Transkriptom_RNA_Seq_2&amp;diff=174"/>
		<updated>2019-07-01T19:04:12Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Der Übungszettel war am 16.05.2019 abzugeben. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: mRNA und RNA-Sequenzierung allgemein  ==&lt;br /&gt;
&lt;br /&gt;
a. Was versteht man unter mRNA?&lt;br /&gt;
&lt;br /&gt;
Messenger-RNA, auch mRNA ist ein einzelsträngiges Transkript einer genomischen&lt;br /&gt;
Sequenz. Wird in Eukaryoten noch einmal prozessiert und gespleißt. Zu beachten ist,&lt;br /&gt;
dass die mRNA aus Nukleotide Ribose als Zucker besitzen und nicht Desoxyribose,&lt;br /&gt;
wie die DNA.&lt;br /&gt;
&lt;br /&gt;
b. Wie könnte man vorgehen, um mRNA anzureichern?&lt;br /&gt;
&lt;br /&gt;
Bei dieser Frage gibt es mehrere Lösungen, eine Antwort könnte so aussehen:&lt;br /&gt;
&lt;br /&gt;
Man lysiert eine Zellkultur, isoliert die mRNA mit der Methode der eigenen Wahl (man&lt;br /&gt;
könnte zum Beispiel die RNA an magnetische microbeads mit Poly-A-Tag binden lassen&lt;br /&gt;
und dann eine Magnetfilterung durchführen). Anschließend kann man die Probe anreichern indem man die rRNA abbaut.&lt;br /&gt;
Die mRNA kann man dann aufkonzentrieren indem man in einer Vakuumkammer Wasser der Lösung verdampfen lässt und&lt;br /&gt;
somit die Konzentration an mRNA erhöht.&lt;br /&gt;
&lt;br /&gt;
c. Ist es möglich, mRNA direkt zu sequenzieren? Wie ist das Vorgehen?&lt;br /&gt;
&lt;br /&gt;
Ja, mittlerweile kann man mRNA auch mehr oder weniger direkt sequenzieren. Dabei&lt;br /&gt;
wird auf das sequencing by synthesis zurückgegriffen. Hierbei verwendet man einzelne&lt;br /&gt;
mRNA-Moleküle an denen Schrittweise fluoreszent markierte Nukleotidanaloge von&lt;br /&gt;
einer speziellen Polymerase angebaut werden. Dabei kann dann die Sequenz über die&lt;br /&gt;
Lichtemissionen über Zeit bestimmt werden.&lt;br /&gt;
&lt;br /&gt;
d. Wie werden einzelne „reads“ den dazugehörigen Genen zugeordnet? &lt;br /&gt;
&lt;br /&gt;
Reads werden mithilfe der Burrows-Wheeler-Transformation an das dazugehörige&lt;br /&gt;
Genom angelegt. Dazu wird die Burrows-Wheeler-Transformation durchgeführt und&lt;br /&gt;
der read wird als Sequenz in der BWT gesucht (siehe [[Übung 4|Hausaufgabe 4 Aufgabe 1d]])&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2: RNA-Sequenzierung   ==&lt;br /&gt;
&lt;br /&gt;
a. Beschreibe den experimentellen Ablauf der mRNA-Sequenzierung. &lt;br /&gt;
&lt;br /&gt;
Standardmäßig werden die Zellen aufgeschlossen, die mRNA extrahiert, aufgereinigt,&lt;br /&gt;
in cDNA umbeschrieben, mit Adaptern getaggt, PCR, fragmentiert und dann mithilfe&lt;br /&gt;
NGS sequenziert.&lt;br /&gt;
&lt;br /&gt;
1. Zellaufschluss: kann mit verschieden Möglichkeiten erreicht werden und je&lt;br /&gt;
nachdem ob man tierische, pflanzliche oder bakterielle Zellen hat ist der&lt;br /&gt;
Prozess auch unterschiedlich. Man kann Methoden wie Chemolyse,&lt;br /&gt;
alkalische Lyse, Sonifikation und andere verwenden&lt;br /&gt;
&lt;br /&gt;
2. Zur mRNA-Extraktion werden normalerweise Kits verwendet. Diese&lt;br /&gt;
basieren auf unterschiedlichen Methoden wie magnetic beads,&lt;br /&gt;
Phasentrennung (mit Chloroform und Phenol) oder via Präzipitation mit&lt;br /&gt;
Ethanol&lt;br /&gt;
&lt;br /&gt;
3. Aufreinigung wird meistens über waschen mit Isopropanol gewährleistet&lt;br /&gt;
&lt;br /&gt;
4. Die mRNA wird in cDNA umgeschrieben indem man reverse Transkriptase&lt;br /&gt;
hinzugibt. Um den mRNA-Strand in cDNA umzuschreiben muss der&lt;br /&gt;
cDNA/RNA Hybrid zwischendurch einsträngig gemacht werden. Beim&lt;br /&gt;
zweiten Stang wird dann dUTP anstatt dTTP verwendet, damit man die&lt;br /&gt;
Stänge voneinander unterscheiden kann. Anschließend werden die 3‘&lt;br /&gt;
Enden adenyliert um Ligation zu vermeiden.&lt;br /&gt;
&lt;br /&gt;
5. Nun werden die Adapter an den mRNA-komplimentäre Strang ligiert&lt;br /&gt;
&lt;br /&gt;
6. In diesem Schritt werden alle cDNA Moleküle mit Adaptern amplifiziert.&lt;br /&gt;
Dadurch wird gewährleistet, dass nur mRNA-komplimentäre cDNA&lt;br /&gt;
amplifiziert wird.&lt;br /&gt;
&lt;br /&gt;
7. Hier wird die cDNA in viele stücke geschnitten, damit die Sequenzierung&lt;br /&gt;
besser und schneller vonstatten geht. &lt;br /&gt;
&lt;br /&gt;
8. NGS-Methoden wie Illumina oder Nanoporesequencing können solche&lt;br /&gt;
Sequenzabschnittte schnell sequenzieren.&lt;br /&gt;
&lt;br /&gt;
9. Die generierten Reads aus der Sequenzierung werden prozessiert. Dazu gehören unter anderem das Trimmen und Filtern um read(-Abschnitte) schlehcter Qualität zu entfernen. &lt;br /&gt;
&lt;br /&gt;
10. Die prozessierten Reads werden alignt, damit sie anschließend ausgewertet werden können.&lt;br /&gt;
&lt;br /&gt;
b. Was versteht man unter der Sequenziertiefe? &lt;br /&gt;
&lt;br /&gt;
Unter Sequenziertiefe versteht man die durchschnittliche Anzahl an reads pro Nukleotid der Sequenz. Eine hohe Sequenziertiefe bedeutet somit eine hohe Readanzahl im Verhältnis zum (Referenz)-Genoms. &lt;br /&gt;
&lt;br /&gt;
c. Wie unterscheiden sich die Ergebnisse einer hohen und einer niedrigen Sequenziertiefe&lt;br /&gt;
bei der Daten-Interpretation? &lt;br /&gt;
&lt;br /&gt;
Eine „flache“ Sequenziertiefe zeigt lediglich stark exprimierte Gene an und ist statistischer&lt;br /&gt;
weniger aussagekräftig. Eine tiefe Sequenziertiefe zeigt auch schwächer exprimierte Gene an&lt;br /&gt;
und ist, da n größer ist, statistischer aussagekräftiger. &lt;br /&gt;
&lt;br /&gt;
Aufgabe 3: Sequenzierung mit FASTQ-Format &lt;br /&gt;
&lt;br /&gt;
a. Ihr erhaltet Sequenzierdaten im FASTQ-Format. Die Datei hat 20 Millionen Zeilen.&lt;br /&gt;
&lt;br /&gt;
    i) Wie viele „reads“ habt ihr erhalten? Erkläre, wieso. &lt;br /&gt;
&lt;br /&gt;
Wir haben 5 Mio. read erhalten, denn jeder Read nimmt insgesamt 4 Zeilen ein.&lt;br /&gt;
Header, Sequence, Descriptor, Quality und 20/4=5&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
    ii) Würde die Anzahl an „reads“ ausreichen, um die Expression eines schwach&lt;br /&gt;
exprimierten Gens zu quantifizieren? &lt;br /&gt;
&lt;br /&gt;
Nein, für ein schwach exprimiertes Gen sollte man ca. 100 Mio. Reads&lt;br /&gt;
haben&lt;br /&gt;
&lt;br /&gt;
b. In einer hypothetischen Zellpopulation sind ausschließlich folgende mRNA-Mengen&lt;br /&gt;
(Anzahl an Molekülen) vorhanden:&lt;br /&gt;
Transkript A: 5000&lt;br /&gt;
Transkript B: 1000&lt;br /&gt;
Transkript C: 10&lt;br /&gt;
Wie groß muss die Sequenziertiefe rein statistisch sein (in „reads“), damit man&lt;br /&gt;
mindestens 10 „reads“ für Transkript C erhält? Geht dabei von identischen Genlängen&lt;br /&gt;
für A, B und C aus. &lt;br /&gt;
&lt;br /&gt;
Die Sequenziertiefe in Reads wäre logisch gesehen bei 6010 ausreichend, allerdings&lt;br /&gt;
kann man mit Binomialverteilungen ausrechnen, dass dann lediglich eine 54,2%ige&lt;br /&gt;
Chance besteht, dass es 10 oder mehr reads von Transkript C gibt. Mit 9500 reads hat&lt;br /&gt;
man eine 95%ige Chance auf 10 oder mehr reads und mit 11500 hat man eine 99%ige&lt;br /&gt;
Chance auf 10 reads. Eine 100% Chance kann niemals gewährleistet werden. &lt;br /&gt;
&lt;br /&gt;
Falls Ihr Binomialverteilung noch einmal wiederholen wollt, empfehle ich euch diesen [https://www.frustfrei-lernen.de/mathematik/binomialverteilung.html Link].&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5.Transkriptom_RNA_Seq_2&amp;diff=173</id>
		<title>5.Transkriptom RNA Seq 2</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5.Transkriptom_RNA_Seq_2&amp;diff=173"/>
		<updated>2019-07-01T19:03:49Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Der Übungszettel war am 16.05.2019 abzugeben. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: mRNA und RNA-Sequenzierung allgemein  ==&lt;br /&gt;
&lt;br /&gt;
a. Was versteht man unter mRNA?&lt;br /&gt;
&lt;br /&gt;
Messenger-RNA, auch mRNA ist ein einzelsträngiges Transkript einer genomischen&lt;br /&gt;
Sequenz. Wird in Eukaryoten noch einmal prozessiert und gespleißt. Zu beachten ist,&lt;br /&gt;
dass die mRNA aus Nukleotide Ribose als Zucker besitzen und nicht Desoxyribose,&lt;br /&gt;
wie die DNA.&lt;br /&gt;
&lt;br /&gt;
b. Wie könnte man vorgehen, um mRNA anzureichern?&lt;br /&gt;
&lt;br /&gt;
Bei dieser Frage gibt es mehrere Lösungen, eine Antwort könnte so aussehen:&lt;br /&gt;
&lt;br /&gt;
Man lysiert eine Zellkultur, isoliert die mRNA mit der Methode der eigenen Wahl (man&lt;br /&gt;
könnte zum Beispiel die RNA an magnetische microbeads mit Poly-A-Tag binden lassen&lt;br /&gt;
und dann eine Magnetfilterung durchführen). Anschließend kann man die Probe anreichern indem man die rRNA abbaut.&lt;br /&gt;
Die mRNA kann man dann aufkonzentrieren indem man in einer Vakuumkammer Wasser der Lösung verdampfen lässt und&lt;br /&gt;
somit die Konzentration an mRNA erhöht.&lt;br /&gt;
&lt;br /&gt;
c. Ist es möglich, mRNA direkt zu sequenzieren? Wie ist das Vorgehen?&lt;br /&gt;
&lt;br /&gt;
Ja, mittlerweile kann man mRNA auch mehr oder weniger direkt sequenzieren. Dabei&lt;br /&gt;
wird auf das sequencing by synthesis zurückgegriffen. Hierbei verwendet man einzelne&lt;br /&gt;
mRNA-Moleküle an denen Schrittweise fluoreszent markierte Nukleotidanaloge von&lt;br /&gt;
einer speziellen Polymerase angebaut werden. Dabei kann dann die Sequenz über die&lt;br /&gt;
Lichtemissionen über Zeit bestimmt werden.&lt;br /&gt;
&lt;br /&gt;
d. Wie werden einzelne „reads“ den dazugehörigen Genen zugeordnet? &lt;br /&gt;
&lt;br /&gt;
Reads werden mithilfe der Burrows-Wheeler-Transformation an das dazugehörige&lt;br /&gt;
Genom angelegt. Dazu wird die Burrows-Wheeler-Transformation durchgeführt und&lt;br /&gt;
der read wird als Sequenz in der BWT gesucht (siehe [[Übung 4|Hausaufgabe 4 Aufgabe 1d]])&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2: RNA-Sequenzierung   ==&lt;br /&gt;
&lt;br /&gt;
a. Beschreibe den experimentellen Ablauf der mRNA-Sequenzierung. &lt;br /&gt;
&lt;br /&gt;
Standardmäßig werden die Zellen aufgeschlossen, die mRNA extrahiert, aufgereinigt,&lt;br /&gt;
in cDNA umbeschrieben, mit Adaptern getaggt, PCR, fragmentiert und dann mithilfe&lt;br /&gt;
NGS sequenziert.&lt;br /&gt;
&lt;br /&gt;
1. Zellaufschluss: kann mit verschieden Möglichkeiten erreicht werden und je&lt;br /&gt;
nachdem ob man tierische, pflanzliche oder bakterielle Zellen hat ist der&lt;br /&gt;
Prozess auch unterschiedlich. Man kann Methoden wie Chemolyse,&lt;br /&gt;
alkalische Lyse, Sonifikation und andere verwenden&lt;br /&gt;
&lt;br /&gt;
2. Zur mRNA-Extraktion werden normalerweise Kits verwendet. Diese&lt;br /&gt;
basieren auf unterschiedlichen Methoden wie magnetic beads,&lt;br /&gt;
Phasentrennung (mit Chloroform und Phenol) oder via Präzipitation mit&lt;br /&gt;
Ethanol&lt;br /&gt;
&lt;br /&gt;
3. Aufreinigung wird meistens über waschen mit Isopropanol gewährleistet&lt;br /&gt;
&lt;br /&gt;
4. Die mRNA wird in cDNA umgeschrieben indem man reverse Transkriptase&lt;br /&gt;
hinzugibt. Um den mRNA-Strand in cDNA umzuschreiben muss der&lt;br /&gt;
cDNA/RNA Hybrid zwischendurch einsträngig gemacht werden. Beim&lt;br /&gt;
zweiten Stang wird dann dUTP anstatt dTTP verwendet, damit man die&lt;br /&gt;
Stänge voneinander unterscheiden kann. Anschließend werden die 3‘&lt;br /&gt;
Enden adenyliert um Ligation zu vermeiden.&lt;br /&gt;
&lt;br /&gt;
5. Nun werden die Adapter an den mRNA-komplimentäre Strang ligiert&lt;br /&gt;
&lt;br /&gt;
6. In diesem Schritt werden alle cDNA Moleküle mit Adaptern amplifiziert.&lt;br /&gt;
Dadurch wird gewährleistet, dass nur mRNA-komplimentäre cDNA&lt;br /&gt;
amplifiziert wird.&lt;br /&gt;
&lt;br /&gt;
7. Hier wird die cDNA in viele stücke geschnitten, damit die Sequenzierung&lt;br /&gt;
besser und schneller vonstatten geht. &lt;br /&gt;
&lt;br /&gt;
8. NGS-Methoden wie Illumina oder Nanoporesequencing können solche&lt;br /&gt;
Sequenzabschnittte schnell sequenzieren.&lt;br /&gt;
&lt;br /&gt;
9. Die generierten Reads aus der Sequenzierung werden prozessiert. Dazu gehören unter anderem das Trimmen und Filtern um read(-Abschnitte) schlehcter Qualität zu entfernen. &lt;br /&gt;
&lt;br /&gt;
10. Die prozessierten Reads werden alignt, damit sie anschließend ausgewertet werden können.&lt;br /&gt;
&lt;br /&gt;
b. Was versteht man unter der Sequenziertiefe? &lt;br /&gt;
&lt;br /&gt;
Unter Sequenziertiefe versteht man die durchschnittliche Anzahl an reads pro Nukleotid der Sequenz. Eine hohe Sequenziertiefe bedeutet somit eine hohe Readanzahl im Verhältnis zum (Referenz)-Genoms. &lt;br /&gt;
&lt;br /&gt;
c. Wie unterscheiden sich die Ergebnisse einer hohen und einer niedrigen Sequenziertiefe&lt;br /&gt;
bei der Daten-Interpretation? &lt;br /&gt;
&lt;br /&gt;
 Eine „flache“ Sequenziertiefe zeigt lediglich stark exprimierte Gene an und ist statistischer&lt;br /&gt;
weniger aussagekräftig. Eine tiefe Sequenziertiefe zeigt auch schwächer exprimierte Gene an&lt;br /&gt;
und ist, da n größer ist, statistischer aussagekräftiger. &lt;br /&gt;
&lt;br /&gt;
Aufgabe 3: Sequenzierung mit FASTQ-Format &lt;br /&gt;
&lt;br /&gt;
a. Ihr erhaltet Sequenzierdaten im FASTQ-Format. Die Datei hat 20 Millionen Zeilen.&lt;br /&gt;
&lt;br /&gt;
    i) Wie viele „reads“ habt ihr erhalten? Erkläre, wieso. &lt;br /&gt;
&lt;br /&gt;
Wir haben 5 Mio. read erhalten, denn jeder Read nimmt insgesamt 4 Zeilen ein.&lt;br /&gt;
Header, Sequence, Descriptor, Quality und 20/4=5&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
    ii) Würde die Anzahl an „reads“ ausreichen, um die Expression eines schwach&lt;br /&gt;
exprimierten Gens zu quantifizieren? &lt;br /&gt;
&lt;br /&gt;
Nein, für ein schwach exprimiertes Gen sollte man ca. 100 Mio. Reads&lt;br /&gt;
haben&lt;br /&gt;
&lt;br /&gt;
b. In einer hypothetischen Zellpopulation sind ausschließlich folgende mRNA-Mengen&lt;br /&gt;
(Anzahl an Molekülen) vorhanden:&lt;br /&gt;
Transkript A: 5000&lt;br /&gt;
Transkript B: 1000&lt;br /&gt;
Transkript C: 10&lt;br /&gt;
Wie groß muss die Sequenziertiefe rein statistisch sein (in „reads“), damit man&lt;br /&gt;
mindestens 10 „reads“ für Transkript C erhält? Geht dabei von identischen Genlängen&lt;br /&gt;
für A, B und C aus. &lt;br /&gt;
&lt;br /&gt;
Die Sequenziertiefe in Reads wäre logisch gesehen bei 6010 ausreichend, allerdings&lt;br /&gt;
kann man mit Binomialverteilungen ausrechnen, dass dann lediglich eine 54,2%ige&lt;br /&gt;
Chance besteht, dass es 10 oder mehr reads von Transkript C gibt. Mit 9500 reads hat&lt;br /&gt;
man eine 95%ige Chance auf 10 oder mehr reads und mit 11500 hat man eine 99%ige&lt;br /&gt;
Chance auf 10 reads. Eine 100% Chance kann niemals gewährleistet werden. &lt;br /&gt;
&lt;br /&gt;
Falls Ihr Binomialverteilung noch einmal wiederholen wollt, empfehle ich euch diesen [https://www.frustfrei-lernen.de/mathematik/binomialverteilung.html Link].&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5.Transkriptom_RNA_Seq_2&amp;diff=172</id>
		<title>5.Transkriptom RNA Seq 2</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5.Transkriptom_RNA_Seq_2&amp;diff=172"/>
		<updated>2019-07-01T19:03:09Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Der Übungszettel war am 16.05.2019 abzugeben. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: mRNA und RNA-Sequenzierung allgemein  ==&lt;br /&gt;
&lt;br /&gt;
a. Was versteht man unter mRNA?&lt;br /&gt;
&lt;br /&gt;
Messenger-RNA, auch mRNA ist ein einzelsträngiges Transkript einer genomischen&lt;br /&gt;
Sequenz. Wird in Eukaryoten noch einmal prozessiert und gespleißt. Zu beachten ist,&lt;br /&gt;
dass die mRNA aus Nukleotide Ribose als Zucker besitzen und nicht Desoxyribose,&lt;br /&gt;
wie die DNA.&lt;br /&gt;
&lt;br /&gt;
b. Wie könnte man vorgehen, um mRNA anzureichern?&lt;br /&gt;
&lt;br /&gt;
Bei dieser Frage gibt es mehrere Lösungen, eine Antwort könnte so aussehen:&lt;br /&gt;
&lt;br /&gt;
Man lysiert eine Zellkultur, isoliert die mRNA mit der Methode der eigenen Wahl (man&lt;br /&gt;
könnte zum Beispiel die RNA an magnetische microbeads mit Poly-A-Tag binden lassen&lt;br /&gt;
und dann eine Magnetfilterung durchführen). Anschließend kann man die Probe anreichern indem man die rRNA abbaut.&lt;br /&gt;
Die mRNA kann man dann aufkonzentrieren indem man in einer Vakuumkammer Wasser der Lösung verdampfen lässt und&lt;br /&gt;
somit die Konzentration an mRNA erhöht.&lt;br /&gt;
&lt;br /&gt;
c. Ist es möglich, mRNA direkt zu sequenzieren? Wie ist das Vorgehen?&lt;br /&gt;
&lt;br /&gt;
Ja, mittlerweile kann man mRNA auch mehr oder weniger direkt sequenzieren. Dabei&lt;br /&gt;
wird auf das sequencing by synthesis zurückgegriffen. Hierbei verwendet man einzelne&lt;br /&gt;
mRNA-Moleküle an denen Schrittweise fluoreszent markierte Nukleotidanaloge von&lt;br /&gt;
einer speziellen Polymerase angebaut werden. Dabei kann dann die Sequenz über die&lt;br /&gt;
Lichtemissionen über Zeit bestimmt werden.&lt;br /&gt;
&lt;br /&gt;
d. Wie werden einzelne „reads“ den dazugehörigen Genen zugeordnet? &lt;br /&gt;
&lt;br /&gt;
Reads werden mithilfe der Burrows-Wheeler-Transformation an das dazugehörige&lt;br /&gt;
Genom angelegt. Dazu wird die Burrows-Wheeler-Transformation durchgeführt und&lt;br /&gt;
der read wird als Sequenz in der BWT gesucht (siehe [[Übung 4|Hausaufgabe 4 Aufgabe 1d]])&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2: RNA-Sequenzierung   ==&lt;br /&gt;
&lt;br /&gt;
a. Beschreibe den experimentellen Ablauf der mRNA-Sequenzierung. &lt;br /&gt;
&lt;br /&gt;
Standardmäßig werden die Zellen aufgeschlossen, die mRNA extrahiert, aufgereinigt,&lt;br /&gt;
in cDNA umbeschrieben, mit Adaptern getaggt, PCR, fragmentiert und dann mithilfe&lt;br /&gt;
NGS sequenziert.&lt;br /&gt;
&lt;br /&gt;
1. Zellaufschluss: kann mit verschieden Möglichkeiten erreicht werden und je&lt;br /&gt;
nachdem ob man tierische, pflanzliche oder bakterielle Zellen hat ist der&lt;br /&gt;
Prozess auch unterschiedlich. Man kann Methoden wie Chemolyse,&lt;br /&gt;
alkalische Lyse, Sonifikation und andere verwenden&lt;br /&gt;
&lt;br /&gt;
2. Zur mRNA-Extraktion werden normalerweise Kits verwendet. Diese&lt;br /&gt;
basieren auf unterschiedlichen Methoden wie magnetic beads,&lt;br /&gt;
Phasentrennung (mit Chloroform und Phenol) oder via Präzipitation mit&lt;br /&gt;
Ethanol&lt;br /&gt;
&lt;br /&gt;
3. Aufreinigung wird meistens über waschen mit Isopropanol gewährleistet&lt;br /&gt;
&lt;br /&gt;
4. Die mRNA wird in cDNA umgeschrieben indem man reverse Transkriptase&lt;br /&gt;
hinzugibt. Um den mRNA-Strand in cDNA umzuschreiben muss der&lt;br /&gt;
cDNA/RNA Hybrid zwischendurch einsträngig gemacht werden. Beim&lt;br /&gt;
zweiten Stang wird dann dUTP anstatt dTTP verwendet, damit man die&lt;br /&gt;
Stänge voneinander unterscheiden kann. Anschließend werden die 3‘&lt;br /&gt;
Enden adenyliert um Ligation zu vermeiden.&lt;br /&gt;
&lt;br /&gt;
5. Nun werden die Adapter an den mRNA-komplimentäre Strang ligiert&lt;br /&gt;
&lt;br /&gt;
6. In diesem Schritt werden alle cDNA Moleküle mit Adaptern amplifiziert.&lt;br /&gt;
Dadurch wird gewährleistet, dass nur mRNA-komplimentäre cDNA&lt;br /&gt;
amplifiziert wird.&lt;br /&gt;
&lt;br /&gt;
7. Hier wird die cDNA in viele stücke geschnitten, damit die Sequenzierung&lt;br /&gt;
besser und schneller vonstatten geht. &lt;br /&gt;
&lt;br /&gt;
8. NGS-Methoden wie Illumina oder Nanoporesequencing können solche&lt;br /&gt;
Sequenzabschnittte schnell sequenzieren.&lt;br /&gt;
&lt;br /&gt;
9. Die generierten Reads aus der Sequenzierung werden prozessiert. Dazu gehören unter anderem das Trimmen und Filtern um read(-Abschnitte) schlehcter Qualität zu entfernen. &lt;br /&gt;
&lt;br /&gt;
10. Die prozessierten Reads werden alignt, damit sie anschließend ausgewertet werden können.&lt;br /&gt;
&lt;br /&gt;
b. Was versteht man unter der Sequenziertiefe? &lt;br /&gt;
&lt;br /&gt;
Unter Sequenziertiefe versteht man die durchschnittliche Anzahl an reads pro Nukleotid der Sequenz. Eine hohe Sequenziertiefe bedeutet somit eine hohe Readanzahl im Verhältnis zum (Referenz)-Genoms. &lt;br /&gt;
&lt;br /&gt;
c. Wie unterscheiden sich die Ergebnisse einer hohen und einer niedrigen Sequenziertiefe&lt;br /&gt;
bei der Daten-Interpretation? &lt;br /&gt;
&lt;br /&gt;
 Eine „flache“ Sequenziertiefe zeigt lediglich stark exprimierte Gene an und ist statistischer&lt;br /&gt;
weniger aussagekräftig. Eine tiefe Sequenziertiefe zeigt auch schwächer exprimierte Gene an&lt;br /&gt;
und ist, da n größer ist, statistischer aussagekräftiger. &lt;br /&gt;
&lt;br /&gt;
Aufgabe 3: Sequenzierung mit FASTQ-Format &lt;br /&gt;
&lt;br /&gt;
a. Ihr erhaltet Sequenzierdaten im FASTQ-Format. Die Datei hat 20 Millionen Zeilen.&lt;br /&gt;
&lt;br /&gt;
    a) Wie viele „reads“ habt ihr erhalten? Erkläre, wieso. &lt;br /&gt;
&lt;br /&gt;
Wir haben 5 Mio. read erhalten, denn jeder Read nimmt insgesamt 4 Zeilen ein.&lt;br /&gt;
Header, Sequence, Descriptor, Quality und 20/4=5&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
    b) Würde die Anzahl an „reads“ ausreichen, um die Expression eines schwach&lt;br /&gt;
exprimierten Gens zu quantifizieren? &lt;br /&gt;
&lt;br /&gt;
Nein, für ein schwach exprimiertes Gen sollte man ca. 100 Mio. Reads&lt;br /&gt;
haben&lt;br /&gt;
&lt;br /&gt;
b. In einer hypothetischen Zellpopulation sind ausschließlich folgende mRNA-Mengen&lt;br /&gt;
(Anzahl an Molekülen) vorhanden:&lt;br /&gt;
Transkript A: 5000&lt;br /&gt;
Transkript B: 1000&lt;br /&gt;
Transkript C: 10&lt;br /&gt;
Wie groß muss die Sequenziertiefe rein statistisch sein (in „reads“), damit man&lt;br /&gt;
mindestens 10 „reads“ für Transkript C erhält? Geht dabei von identischen Genlängen&lt;br /&gt;
für A, B und C aus. &lt;br /&gt;
&lt;br /&gt;
Die Sequenziertiefe in Reads wäre logisch gesehen bei 6010 ausreichend, allerdings&lt;br /&gt;
kann man mit Binomialverteilungen ausrechnen, dass dann lediglich eine 54,2%ige&lt;br /&gt;
Chance besteht, dass es 10 oder mehr reads von Transkript C gibt. Mit 9500 reads hat&lt;br /&gt;
man eine 95%ige Chance auf 10 oder mehr reads und mit 11500 hat man eine 99%ige&lt;br /&gt;
Chance auf 10 reads. Eine 100% Chance kann niemals gewährleistet werden. &lt;br /&gt;
&lt;br /&gt;
Falls Ihr Binomialverteilung noch einmal wiederholen wollt, empfehle ich euch diesen [https://www.frustfrei-lernen.de/mathematik/binomialverteilung.html Link].&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5.Transkriptom_RNA_Seq_2&amp;diff=171</id>
		<title>5.Transkriptom RNA Seq 2</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5.Transkriptom_RNA_Seq_2&amp;diff=171"/>
		<updated>2019-07-01T17:23:11Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Der Übungszettel war am 16.05.2019 abzugeben. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: mRNA und RNA-Sequenzierung allgemein  ==&lt;br /&gt;
&lt;br /&gt;
a. Was versteht man unter mRNA?&lt;br /&gt;
&lt;br /&gt;
Messenger-RNA, auch mRNA ist ein einzelsträngiges Transkript einer genomischen&lt;br /&gt;
Sequenz. Wird in Eukaryoten noch einmal prozessiert und gespleißt. Zu beachten ist,&lt;br /&gt;
dass die mRNA aus Nukleotide Ribose als Zucker besitzen und nicht Desoxyribose,&lt;br /&gt;
wie die DNA.&lt;br /&gt;
&lt;br /&gt;
b. Wie könnte man vorgehen, um mRNA anzureichern?&lt;br /&gt;
&lt;br /&gt;
Bei dieser Frage gibt es mehrere Lösungen, eine Antwort könnte so aussehen:&lt;br /&gt;
&lt;br /&gt;
Man lysiert eine Zellkultur, isoliert die mRNA mit der Methode der eigenen Wahl (man&lt;br /&gt;
könnte zum Beispiel die RNA an magnetische microbeads mit Poly-A-Tag binden lassen&lt;br /&gt;
und dann eine Magnetfilterung durchführen). Anschließend kann man die Probe anreichern indem man die rRNA abbaut.&lt;br /&gt;
Die mRNA kann man dann aufkonzentrieren indem man in einer Vakuumkammer Wasser der Lösung verdampfen lässt und&lt;br /&gt;
somit die Konzentration an mRNA erhöht.&lt;br /&gt;
&lt;br /&gt;
c. Ist es möglich, mRNA direkt zu sequenzieren? Wie ist das Vorgehen?&lt;br /&gt;
&lt;br /&gt;
Ja, mittlerweile kann man mRNA auch mehr oder weniger direkt sequenzieren. Dabei&lt;br /&gt;
wird auf das sequencing by synthesis zurückgegriffen. Hierbei verwendet man einzelne&lt;br /&gt;
mRNA-Moleküle an denen Schrittweise fluoreszent markierte Nukleotidanaloge von&lt;br /&gt;
einer speziellen Polymerase angebaut werden. Dabei kann dann die Sequenz über die&lt;br /&gt;
Lichtemissionen über Zeit bestimmt werden.&lt;br /&gt;
&lt;br /&gt;
d. Wie werden einzelne „reads“ den dazugehörigen Genen zugeordnet? &lt;br /&gt;
&lt;br /&gt;
Reads werden mithilfe der Burrows-Wheeler-Transformation an das dazugehörige&lt;br /&gt;
Genom angelegt. Dazu wird die Burrows-Wheeler-Transformation durchgeführt und&lt;br /&gt;
der read wird als Sequenz in der BWT gesucht (siehe [[Übung 4|Hausaufgabe 4 Aufgabe 1d]])&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5.Transkriptom_RNA_Seq_2&amp;diff=170</id>
		<title>5.Transkriptom RNA Seq 2</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5.Transkriptom_RNA_Seq_2&amp;diff=170"/>
		<updated>2019-07-01T17:22:49Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: Created page with &amp;quot;Der Übungszettel war am 16.05.2019 abzugeben.   == Aufgabe 1: mRNA und RNA-Sequenzierung allgemein  ==  a. Was versteht man unter mRNA?  Messenger-RNA, auch mRNA ist ein einz...&amp;quot;&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Der Übungszettel war am 16.05.2019 abzugeben. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: mRNA und RNA-Sequenzierung allgemein  ==&lt;br /&gt;
&lt;br /&gt;
a. Was versteht man unter mRNA?&lt;br /&gt;
&lt;br /&gt;
Messenger-RNA, auch mRNA ist ein einzelsträngiges Transkript einer genomischen&lt;br /&gt;
Sequenz. Wird in Eukaryoten noch einmal prozessiert und gespleißt. Zu beachten ist,&lt;br /&gt;
dass die mRNA aus Nukleotide Ribose als Zucker besitzen und nicht Desoxyribose,&lt;br /&gt;
wie die DNA.&lt;br /&gt;
&lt;br /&gt;
b. Wie könnte man vorgehen, um mRNA anzureichern?&lt;br /&gt;
&lt;br /&gt;
Bei dieser Frage gibt es mehrere Lösungen, eine Antwort könnte so aussehen:&lt;br /&gt;
&lt;br /&gt;
Man lysiert eine Zellkultur, isoliert die mRNA mit der Methode der eigenen Wahl (man&lt;br /&gt;
könnte zum Beispiel die RNA an magnetische microbeads mit Poly-A-Tag binden lassen&lt;br /&gt;
und dann eine Magnetfilterung durchführen). Anschließend kann man die Probe anreichern indem man die rRNA abbaut.&lt;br /&gt;
  Die mRNA kann man dann&lt;br /&gt;
aufkonzentrieren indem man in einer Vakuumkammer Wasser der Lösung verdampfen lässt und&lt;br /&gt;
somit die Konzentration an mRNA erhöht.&lt;br /&gt;
&lt;br /&gt;
c. Ist es möglich, mRNA direkt zu sequenzieren? Wie ist das Vorgehen?&lt;br /&gt;
&lt;br /&gt;
Ja, mittlerweile kann man mRNA auch mehr oder weniger direkt sequenzieren. Dabei&lt;br /&gt;
wird auf das sequencing by synthesis zurückgegriffen. Hierbei verwendet man einzelne&lt;br /&gt;
mRNA-Moleküle an denen Schrittweise fluoreszent markierte Nukleotidanaloge von&lt;br /&gt;
einer speziellen Polymerase angebaut werden. Dabei kann dann die Sequenz über die&lt;br /&gt;
Lichtemissionen über Zeit bestimmt werden.&lt;br /&gt;
&lt;br /&gt;
d. Wie werden einzelne „reads“ den dazugehörigen Genen zugeordnet? &lt;br /&gt;
&lt;br /&gt;
Reads werden mithilfe der Burrows-Wheeler-Transformation an das dazugehörige&lt;br /&gt;
Genom angelegt. Dazu wird die Burrows-Wheeler-Transformation durchgeführt und&lt;br /&gt;
der read wird als Sequenz in der BWT gesucht (siehe [[Übung 4|Hausaufgabe 4 Aufgabe 1d]])&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=4.Burrows-Wheeler&amp;diff=156</id>
		<title>4.Burrows-Wheeler</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=4.Burrows-Wheeler&amp;diff=156"/>
		<updated>2019-06-06T12:23:45Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: /* Aufgabe 1 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war am 08.05.2019 abzugeben.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1 ==&lt;br /&gt;
&lt;br /&gt;
a) Wofür wird der Burrows-Wheeler Algorithmus verwendet? Welche Funktion besitzt&lt;br /&gt;
er?&lt;br /&gt;
&lt;br /&gt;
Der BWA wird in der Informatik zur Datenkomprimierung verwendet. In der&lt;br /&gt;
Bioinformatik wird er dazu verwendet um Sequenzabschnitte in großen Sequenzen&lt;br /&gt;
zu finden. Eine Anwendung wäre zum Beispiel die Position von reads an einem&lt;br /&gt;
Referenzgenom zu bestimmen. Besonders an der Transformation ist, dass eine Rücktransformation problemlos möglich ist und dass es keinen Informationsverlust bei dem Prozess gibt. &lt;br /&gt;
b) Nennen Sie die Schritte, welche für eine Burrows-Wheeler Transformation&lt;br /&gt;
durchgeführt werden müssen und zeigen Sie dies an folgender Sequenz:&lt;br /&gt;
AGTGCCATG$.&lt;br /&gt;
Wie lautet der Index dieser Transformation?&lt;br /&gt;
&lt;br /&gt;
Zuerst werden alle cyclischen Verschiebungen der Sequenz aufgeschrieben und&lt;br /&gt;
nummeriert sie :&lt;br /&gt;
 $AGTGCCATG 9&lt;br /&gt;
 G$AGTGCCAT 8&lt;br /&gt;
 TG$AGTGCCA 7&lt;br /&gt;
 ATG$AGTGCC 6&lt;br /&gt;
 CATG$AGTGC 5&lt;br /&gt;
 CCATG$AGTG 4&lt;br /&gt;
 GCCATG$AGT 3&lt;br /&gt;
 TGCCATG$AG 2&lt;br /&gt;
 GTGCCATG$A 1&lt;br /&gt;
 AGTGCCATG$ 0&lt;br /&gt;
Die Sequenzen werden anschließend alphabetisch geordnet, wobei $ noch vor A&lt;br /&gt;
kommt&lt;br /&gt;
 $AGTGCCATG 9&lt;br /&gt;
 AGTGCCATG$ 0&lt;br /&gt;
 ATG$AGTGCC 6&lt;br /&gt;
 CATG$AGTGC 5&lt;br /&gt;
 CCATG$AGTG 4&lt;br /&gt;
 G$AGTGCCAT 8&lt;br /&gt;
 GCCATG$AGT 3&lt;br /&gt;
 GTGCCATG$A 1&lt;br /&gt;
 TG$AGTGCCA 7&lt;br /&gt;
 TGCCATG$AG 2&lt;br /&gt;
Die letzte Spalte ist das Ergebnis der Burrows Wheeler Transformation&lt;br /&gt;
  BWT(T)= G$CCGTTAAG&lt;br /&gt;
&lt;br /&gt;
c) Führen Sie nun eine Rücktransformation der transformierten Sequenz (aus Teil b)&lt;br /&gt;
mithilfe der „last first“ Zuordnung durch. Beschreiben Sie ihr Vorgehen anhand der&lt;br /&gt;
einzelnen Teilschritte.&lt;br /&gt;
[[File:U4A1c.PNG|thumb|Pfad der Rücktransformation]]&lt;br /&gt;
Man sortiert das Ergebnis der BWT alphabetisch um die erste Spalte der Sequenzen&lt;br /&gt;
zu erhalten und stellt sie der BWT gegenüber. Man weiß, dass der erste Buchstabe in der Burrows-Wheeler-Transformation, der letzte Buchstabe in der Sequenz ist (vor dem&lt;br /&gt;
$). Außerdem kann man durch die Last-First Zuordnung den&lt;br /&gt;
Rest der Sequenz bestimmen, denn die Buchstaben in der 1&lt;br /&gt;
in der 1. Spalte entspricht dem ersten A in der letzten. Da man&lt;br /&gt;
weiß, dass in allen anderen Zeilen in der richtigen Sequenz&lt;br /&gt;
der erste Buchstabe dem letzten Buchstaben folgt, kann man die&lt;br /&gt;
Sequenz problemlos von hinten an rekonstruieren.&lt;br /&gt;
&lt;br /&gt;
 Sequenz: AGTGCCATG$&lt;br /&gt;
&lt;br /&gt;
d) Wie gehen Sie vor, wenn Sie die Teilsequenz GCC in der gegebenen Sequenz&lt;br /&gt;
finden wollen?&lt;br /&gt;
&lt;br /&gt;
Für diese Anwendung benötigt man die Zahlenwerte, die man den Verschiebungen am Anfang gegeben hat. Man schaut in der 1. Spalte nach dem Intervall mit dem letzten Buchstaben der gesuchten Sequenz, geht damit dann zum entsprechenden Intervall rechts in der letzten Zeile und verkleinert es an den Enden die nicht der Sequenz entsprechen. Die Zeile an der man am Ende in der linken Zeile endet ist die Position an der die Sequenz beginnt, wenn man +1 hinzufügt.&lt;br /&gt;
&lt;br /&gt;
[[File:U4A1d1.PNG|thumb|Anfang des Suchalgorithmus]]&lt;br /&gt;
&lt;br /&gt;
Im ersten Schritt sehen wir, dass wir ein Zweierintervall haben für C, wenn wir das nach Rechts verfolgen, sehen wir dass die untere Position nicht die gewünschte zweite Position besitzt. Deshalb wird das Intervall unter verkleinert.&lt;br /&gt;
&lt;br /&gt;
[[File:U4A1d2.PNG|thumb|Fortführung des Suchalgorithmus]]&lt;br /&gt;
&lt;br /&gt;
Der Rest ist aufgrund der Tatsache, dass die Intervallsgröße nur noch 1 ist, relativ einfach. Dabei wird lediglich die Sequenz weiter rückwärts durchlaufen bis man in der sortierten Spalte auf den erste Buchstaben de gsuchten Sequenz trifft. Die zugehörige Nummer (+1 da bei Null angefangen wurde zu nummerieren) entspricht dem Startpunkt der gesuchten Sequenz. Die Sequenz fängt in String Nummer 3 an, also begint die Sequenz an Position 3+1= 4.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=4.Burrows-Wheeler&amp;diff=155</id>
		<title>4.Burrows-Wheeler</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=4.Burrows-Wheeler&amp;diff=155"/>
		<updated>2019-06-06T12:23:13Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: Created page with &amp;quot;Diese Übung war am 08.05.2019 abzugeben.  == Aufgabe 1 ==  a) Wofür wird der Burrows-Wheeler Algorithmus verwendet? Welche Funktion besitzt er?  Der BWA wird in der Informat...&amp;quot;&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war am 08.05.2019 abzugeben.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1 ==&lt;br /&gt;
&lt;br /&gt;
a) Wofür wird der Burrows-Wheeler Algorithmus verwendet? Welche Funktion besitzt&lt;br /&gt;
er?&lt;br /&gt;
&lt;br /&gt;
Der BWA wird in der Informatik zur Datenkomprimierung verwendet. In der&lt;br /&gt;
Bioinformatik wird er dazu verwendet um Sequenzabschnitte in großen Sequenzen&lt;br /&gt;
zu finden. Eine Anwendung wäre zum Beispiel die Position von reads an einem&lt;br /&gt;
Referenzgenom zu bestimmen. Besonders an der Transformation ist, dass eine Rücktransformation problemlos möglich ist und dass es keinen Informationsverlust bei dem Prozess gibt. &lt;br /&gt;
b) Nennen Sie die Schritte, welche für eine Burrows-Wheeler Transformation&lt;br /&gt;
durchgeführt werden müssen und zeigen Sie dies an folgender Sequenz:&lt;br /&gt;
AGTGCCATG$.&lt;br /&gt;
Wie lautet der Index dieser Transformation?&lt;br /&gt;
&lt;br /&gt;
Zuerst werden alle cyclischen Verschiebungen der Sequenz aufgeschrieben und&lt;br /&gt;
nummeriert sie :&lt;br /&gt;
 $AGTGCCATG 9&lt;br /&gt;
 G$AGTGCCAT 8&lt;br /&gt;
 TG$AGTGCCA 7&lt;br /&gt;
 ATG$AGTGCC 6&lt;br /&gt;
 CATG$AGTGC 5&lt;br /&gt;
 CCATG$AGTG 4&lt;br /&gt;
 GCCATG$AGT 3&lt;br /&gt;
 TGCCATG$AG 2&lt;br /&gt;
 GTGCCATG$A 1&lt;br /&gt;
 AGTGCCATG$ 0&lt;br /&gt;
Die Sequenzen werden anschließend alphabetisch geordnet, wobei $ noch vor A&lt;br /&gt;
kommt&lt;br /&gt;
 $AGTGCCATG 9&lt;br /&gt;
 AGTGCCATG$ 0&lt;br /&gt;
 ATG$AGTGCC 6&lt;br /&gt;
 CATG$AGTGC 5&lt;br /&gt;
 CCATG$AGTG 4&lt;br /&gt;
 G$AGTGCCAT 8&lt;br /&gt;
 GCCATG$AGT 3&lt;br /&gt;
 GTGCCATG$A 1&lt;br /&gt;
 TG$AGTGCCA 7&lt;br /&gt;
 TGCCATG$AG 2&lt;br /&gt;
Die letzte Spalte ist das Ergebnis der Burrows Wheeler Transformation&lt;br /&gt;
  BWT(T)= G$CCGTTAAG&lt;br /&gt;
&lt;br /&gt;
c) Führen Sie nun eine Rücktransformation der transformierten Sequenz (aus Teil b)&lt;br /&gt;
mithilfe der „last first“ Zuordnung durch. Beschreiben Sie ihr Vorgehen anhand der&lt;br /&gt;
einzelnen Teilschritte.&lt;br /&gt;
[[File:U4A1c.PNG|thumb|Pfad der Rücktransformation]]&lt;br /&gt;
Man sortiert das Ergebnis der BWT alphabetisch um die erste Spalte der Sequenzen&lt;br /&gt;
zu erhalten und stellt sie der BWT gegenüber. Man weiß, dass der erste Buchstabe in der Burrows-Wheeler-Transformation, der letzte Buchstabe in der Sequenz ist (vor dem&lt;br /&gt;
$). Außerdem kann man durch die Last-First Zuordnung den&lt;br /&gt;
Rest der Sequenz bestimmen, denn die Buchstaben in der 1&lt;br /&gt;
in der 1. Spalte entspricht dem ersten A in der letzten. Da man&lt;br /&gt;
weiß, dass in allen anderen Zeilen in der richtigen Sequenz&lt;br /&gt;
der erste Buchstabe dem letzten Buchstaben folgt, kann man die&lt;br /&gt;
Sequenz problemlos von hinten an rekonstruieren.&lt;br /&gt;
&lt;br /&gt;
 Sequenz: AGTGCCATG$&lt;br /&gt;
&lt;br /&gt;
d) Wie gehen Sie vor, wenn Sie die Teilsequenz GCC in der gegebenen Sequenz&lt;br /&gt;
finden wollen?&lt;br /&gt;
&lt;br /&gt;
Für diese Anwendung benötigt man die Zahlenwerte, die man den Verschiebungen am Anfang gegeben hat. Man schaut in der 1. Spalte nach dem Intervall mit dem letzten Buchstaben der gesuchten Sequenz, geht damit dann zum entsprechenden Intervall rechts in der letzten Zeile und verkleinert es an den Enden die nicht der Sequenz entsprechen. Die Zeile an der man am Ende in der linken Zeile endet ist die Position an der die Sequenz beginnt, wenn man +1 hinzufügt.&lt;br /&gt;
&lt;br /&gt;
[[File:U4A1d1.PNG|thumb|Anfang des Suchalgorithmus]]&lt;br /&gt;
&lt;br /&gt;
Im ersten Schritt sehen wir, dass wir ein Zweierintervall haben für C, wenn wir das nach Rechts verfolgen, sehen wir dass die untere Position nicht die gewünschte zweite Position besitzt. Deshalb wird das Intervall unter verkleinert.&lt;br /&gt;
&lt;br /&gt;
Der Rest ist aufgrund der Tatsache, dass die Intervallsgröße nur noch 1 ist, relativ einfach. Dabei wird lediglich die Sequenz weiter rückwärts durchlaufen bis man in der sortierten Spalte auf den erste Buchstaben de gsuchten Sequenz trifft. Die zugehörige Nummer (+1 da bei Null angefangen wurde zu nummerieren) entspricht dem Startpunkt der gesuchten Sequenz. Die Sequenz fängt in String Nummer 3 an, also begint die Sequenz an Position 3+1= 4.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:U4A1d2.PNG&amp;diff=154</id>
		<title>File:U4A1d2.PNG</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:U4A1d2.PNG&amp;diff=154"/>
		<updated>2019-06-06T12:17:58Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: Fürtführung des Suchalgorithmus in einer BWT&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== Summary ==&lt;br /&gt;
Fürtführung des Suchalgorithmus in einer BWT&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:U4A1d1.PNG&amp;diff=153</id>
		<title>File:U4A1d1.PNG</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:U4A1d1.PNG&amp;diff=153"/>
		<updated>2019-06-06T12:17:21Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: Anfang des Suchalgorithmus in einer BWT&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== Summary ==&lt;br /&gt;
Anfang des Suchalgorithmus in einer BWT&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:U4A1c.PNG&amp;diff=152</id>
		<title>File:U4A1c.PNG</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:U4A1c.PNG&amp;diff=152"/>
		<updated>2019-06-06T12:11:27Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: Zuordnung für die Rücktransformation der BWT in Übung 4.&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== Summary ==&lt;br /&gt;
Zuordnung für die Rücktransformation der BWT in Übung 4.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=150</id>
		<title>3.Smith-Waterman</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=150"/>
		<updated>2019-06-04T15:25:31Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&amp;lt;sub&amp;gt;Subscript text&amp;lt;/sub&amp;gt;Diese Übung war zum Donnerstag, den 02.05.2019 abzugeben. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: Definitionen ==&lt;br /&gt;
&lt;br /&gt;
a.: Definiere die folgenden Begriffe:&lt;br /&gt;
&lt;br /&gt;
* Alignment: Methode, bei der verschiedene Sequenzen optimal aufeinander ausgerichtet werden um übereinstimmende Teile untereinander sichtbar zu machen. Die kann entweder zwischen einem Read und einem Referenzgenom passieren oder zwischen zwei Reads im Zuge der RNAseq. &lt;br /&gt;
&lt;br /&gt;
* Dynamic Programming: Algorithmus zum Lösen von informatischen Problemen. Dabei wird ein Problem in Teilprobleme unterteilt, die nach und nach gelöst und gespeichert werden. Die kann auf Assemblies angewandt werden, indem man die reads nach und nach aneinanderfügt, anstatt dies in einem einzigen Programmschritt durchzuführen. Dabei wird stets ein Paar mit maximalem Match verbunden bevor das nächste Paar verwendet wird. &lt;br /&gt;
&lt;br /&gt;
* lokales Alignment: Alignment von zwei (Teil)-Sequenzen, wird mit dem Smith-Waterman-Algorithmus durchgeführt. Zur Berechnung müssen die Teilsequenzen gefunden werden, die den höchsten Alignmentscore besitzen. &lt;br /&gt;
&lt;br /&gt;
* Gap penalty: Abzug im Alignmentscore, wenn bei einem lokalen Alignment eine Base ungepaart ist (z.B. &lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 AATTGGCC&lt;br /&gt;
 TT-AACCGG&lt;br /&gt;
|}&lt;br /&gt;
hätte an Position 3 ein Gap und somit eine Gap penalty.)&lt;br /&gt;
&lt;br /&gt;
* Fasta-Format: textbasiertes Format in dem DNA, RNA und Proteinsequenzen gespeichert werden. Besteht aus 2-3 Zeilen pro Sequenz. die erste Zeile besteht aus einem Header der mit &amp;gt; beginnt und Namen und Beschreibung der Sequenz beinhaltet, danach folgt eine optinale Kommentarzeile, gefolgt von der Zeile mit der eigentlichen Sequenz. Mehrere Sequenzen können in einer Datei gespeichert werden, wenn man einen neuen Header für jede Sequenz beginnt. &lt;br /&gt;
&lt;br /&gt;
Beispiel:&lt;br /&gt;
&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 &amp;gt;Probesequenz_1_20190502_ABC&lt;br /&gt;
 AATTAAGCATAAATAGGCTAGCTAAGCTAGCCA&lt;br /&gt;
 &amp;gt;Probesequenz_2_20190502_ABC&lt;br /&gt;
 GGGATTCGACCGATCGAAGCTTAGCGAACGAGA&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
* Algorithmus: Handlungsanweisung zur Lösung eines Problems, besteht aus definierten, sequentiellen Abschnitten.&lt;br /&gt;
&lt;br /&gt;
b.: Welche grundsätzlichen Arten von Alignment gibt es?&lt;br /&gt;
&lt;br /&gt;
Lokales Alignment: Alignment von unterschiedlichen (Teil)-Sequenzen, normalerweise unter der Verwendung des Smith-Waterman-Algorithmuses. Wird mit längeren Teilsequenzen immer aufwändiger.&lt;br /&gt;
&lt;br /&gt;
Globales Alignment: Volle Sequenzen werden miteinander alignt. Wird oftmals mit dem Needleman-Wunsch Algorithmus bearbeitet.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2: Smith-Waterman ==&lt;br /&gt;
&lt;br /&gt;
a.: Erkläre welche Funktion der Smith-Waterman-Algorithmus hat und wie er funktioniert.&lt;br /&gt;
&lt;br /&gt;
Der Smith-Waterman Algorithmus wird verwendet um lokale Alignments zu finden.&lt;br /&gt;
&lt;br /&gt;
Berechnet wird es mit folgender Matrix: &lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt;S(i,j) = \max \begin{Bmatrix}&lt;br /&gt;
0  \\&lt;br /&gt;
H(i-1,j-1) + \ s(a_i,b_j) &amp;amp; \text{I} \\&lt;br /&gt;
H(i-1,j) + \ s(a_i,eps) &amp;amp; \text{II} \\&lt;br /&gt;
H(i,j-1) + \ s(eps,b_j) &amp;amp; \text{III}&lt;br /&gt;
\end{Bmatrix}&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Erklärt bedeutet dies, das eine Matrix aufgespannt wird mit der Größe Länge von Sequenz A x Länge der Sequenz B, so repräsentiert jede Zelle in der Matrix eine Kombination von einer Base aus Sequenz A und einer Base aus Sequenz B und kann somit als Match oder Mismatch identifiziert werden. &lt;br /&gt;
Eine Zahlenbewertung (Score) für Match, Mismatch und Gap muss vorgegeben werden.&lt;br /&gt;
Für jede Zelle der Matrix wird ein Wert berechnet, angefangen oben links und beendet unten rechts in der Matrix. &lt;br /&gt;
Der Wert für eine bestimmte Zelle ist der höchste Wert aus den folgenden 4:&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert für die Zelle links oben  diagonal (oder 0 falls dies außerhalb der Matrix liegt) plus den Score der Zelle (Match oder Mismatch).&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert aus der Zelle links daneben plus den Score für einen Gap.&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert aus Zelle oberhalb plus den Score für einen Gap.&lt;br /&gt;
&lt;br /&gt;
* Null&lt;br /&gt;
&lt;br /&gt;
Die Matrix wird berechnet bis alle Werte bestimmt sind. Dann wird der höchste Wert der gesamten Matrix gesucht. Von diesem Punkt beginnt das Alignment. Von dort aus wird rückwärts die Sequenz bestimmt indem die Rechnung rückwärts verfolgt wird. Der nächste Sequenzteil ist dann jeweils immer die Zelle von der aus man den höchsten Wert berechnet hat. Sobald man jedoch nach links oder nach oben geht anstatt diagonal zu gehen muss man beachten dass man hierbei ein Gap in das Alignment einbaut und dies auch so aufschreiben muss.&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt; &lt;br /&gt;
&lt;br /&gt;
File:Matrix berechnen.png|Zuerst berechnet man jede Zelle der Matrix...&lt;br /&gt;
File:Alignment finden.png|...und geht dann vom höchsten Wert rückwärts&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
b.: Wo in der Smith-Waterman-Matrix beginnt und endet das optimale Alignment?&lt;br /&gt;
&lt;br /&gt;
Das optimale Alignment beginnt bei den höchsten Wert, folgt dann dem Berechnungsstrang bis das erste Mal auf eine 0 getroffen wird. Dort bricht das Alignment ab. &lt;br /&gt;
&lt;br /&gt;
c.: Welche Alignment-Art wird durch den Smith-Waterman Algorithmus bestimmt?&lt;br /&gt;
&lt;br /&gt;
Mit dem Algorithmus wird ein lokales Alignment bestimmt.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 3: lokales Alignment ==&lt;br /&gt;
&lt;br /&gt;
Führe ein Alignment der folgenden Sequenzen durch: GCDGC GDG&lt;br /&gt;
&lt;br /&gt;
Verwende den Ähnlichkeitsscore S: Match = 3 | Mismatch = -2 | Gap = -4&lt;br /&gt;
&lt;br /&gt;
Berechne für die beiden Sequenzen ein optimales lokales Alignment nah Smith-Waterman mit den gleichen Bedingungen.&lt;br /&gt;
Welches optimale lokale Alignment ergibt sich?&lt;br /&gt;
Rechts ist die Lösungsmatrix dargestellt, der Score des Alignments ist 6.&lt;br /&gt;
[[File:A3U3.png|thumb]]&lt;br /&gt;
== Aufgabe 4: Alignment ==&lt;br /&gt;
&lt;br /&gt;
Während deiner Bachelorarbeit sollst du ein Protein, das du gerade versuchst zu&lt;br /&gt;
charakterisieren, in einen groben Kontext bringen. Leider weißt du noch nicht viel über das&lt;br /&gt;
Protein.&lt;br /&gt;
Daher ist dein erster Schritt, gemeinsame Domänen zwischen den Proteinen zu finden.&lt;br /&gt;
Für das Protein hat sich folgende Sequenz ergeben: DDCGDC&lt;br /&gt;
Durch einen Abgleich der Sequenz mit einer Datenbank kann die Sequenz mit anderen&lt;br /&gt;
Sequenzen verglichen und ein optimales Alignment gefunden werden.&lt;br /&gt;
Wieso eignet sich hier der Smith-Waterman Algorithmus?&lt;br /&gt;
Führe ein Alignment zwischen der oben ermittelten Sequenz und der folgenden durch:&lt;br /&gt;
&lt;br /&gt;
DGGD&lt;br /&gt;
&lt;br /&gt;
Ähnlichkeitsscore S: match = 3 | mismatch = -1 | gap penalty = -4&lt;br /&gt;
&lt;br /&gt;
Smith-Waterman nutzt man für lokale Alignments, hier ist dies nützlich da wir Ausschnitte aus zwei funktionell ähnlichen Domänen vergleichen.&lt;br /&gt;
&lt;br /&gt;
[[File:U3A4.png|thumb]]&lt;br /&gt;
&lt;br /&gt;
Das Alignment ist somit: &lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 DCGD&lt;br /&gt;
 DGGD&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 5: Lander-Waterman-Modell ==&lt;br /&gt;
&lt;br /&gt;
a. Was sagt das Lander-Waterman-Modell aus? Benne die darauf beruhende Formel&lt;br /&gt;
sowie ihre Bestandteile.&lt;br /&gt;
&lt;br /&gt;
Mit dem Lander-Waterman-Modell kann man berechnen wie viele Gaps in einem Alignment zu erwarten sind.&lt;br /&gt;
&lt;br /&gt;
Die Formel zur Berechung lautet: &amp;lt;math&amp;gt; P=e^{-C} &amp;lt;/math&amp;gt; wobei &amp;lt;math&amp;gt; C= \frac{N*L}{G} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Hierbei ist C die Coverage, die sich aus der Anzahl der reads N, der durchschnittlichen readlänge L und der Templatesequenz G berechnet. &lt;br /&gt;
&lt;br /&gt;
b.Suche im Internet die Länge des menschlichen Genoms heraus. Verwende dafür folgende&lt;br /&gt;
Internetseite: https://www.ncbi.nlm.nih.gov/&lt;br /&gt;
&lt;br /&gt;
Wie viele Reads müssen sequenziert werden, um das humane Genom mit einer&lt;br /&gt;
Coverage von 30 abzudecken? Gehe hierfür von einer durchschnittlichen Read Länge&lt;br /&gt;
von 600 bp aus. &lt;br /&gt;
&lt;br /&gt;
Je nach gefundenem Wert für die Genomlänge, die ja nach Genotyp variiert hat man leicht unterschiedliche Werte.&lt;br /&gt;
&lt;br /&gt;
Coverage &amp;lt;math&amp;gt;&lt;br /&gt;
       C = 30 = \frac{N*600}{3257320000}&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;&lt;br /&gt;
  N = 162866000 &lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
c. Wie hoch ist die Häufigkeit nicht abgedeckter bp bei einer Coverage von 45?&lt;br /&gt;
&lt;br /&gt;
Hier können wir das Lander-Waterman-Modell anwenden: &lt;br /&gt;
&amp;lt;math&amp;gt; P=e^{-C} = e^{-60} = 8,7565*10^{-27}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
d. Wie müsste die Anzahl der Reads gewählt werden, sodass eine möglichst komplette&lt;br /&gt;
Übersicht über die Genomsequenz erhalten wird?&lt;br /&gt;
&lt;br /&gt;
Generell gilt, dass je mehr reads desto geringer die Wahrscheinlichkeit dass Gaps autreten. Jedoch verlängert sich damit die Dauer der Sequenzierung auch. Man kann die Lander-Waterman-Formel umstellen um zu berechnen welche Coverage man braucht um nur ein Contig zu haben &lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt; -C=\ln(\frac{1}{3257320000})=-21,904 &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Es würde also eine Coverage von über 21 gebraucht werden um statistisch gesehen keine Gaps mehr zu erwarten.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=146</id>
		<title>3.Smith-Waterman</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=146"/>
		<updated>2019-06-03T19:24:18Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war zum Donnerstag, den 02.05.2019 abzugeben. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: Definitionen ==&lt;br /&gt;
&lt;br /&gt;
a.: Definiere die folgenden Begriffe:&lt;br /&gt;
&lt;br /&gt;
* Alignment: Methode, bei der verschiedene Sequenzen optimal aufeinander ausgerichtet werden um übereinstimmende Teile untereinander sichtbar zu machen. Die kann entweder zwischen einem Read und einem Referenzgenom passieren oder zwischen zwei Reads im Zuge der RNAseq. &lt;br /&gt;
&lt;br /&gt;
* Dynamic Programming: Algorithmus zum Lösen von informatischen Problemen. Dabei wird ein Problem in Teilprobleme unterteilt, die nach und nach gelöst und gespeichert werden. Die kann auf Assemblies angewandt werden, indem man die reads nach und nach aneinanderfügt, anstatt dies in einem einzigen Programmschritt durchzuführen. Dabei wird stets ein Paar mit maximalem Match verbunden bevor das nächste Paar verwendet wird. &lt;br /&gt;
&lt;br /&gt;
* lokales Alignment: Alignment von zwei (Teil)-Sequenzen, wird mit dem Smith-Waterman-Algorithmus durchgeführt. Zur Berechnung müssen die Teilsequenzen gefunden werden, die den höchsten Alignmentscore besitzen. &lt;br /&gt;
&lt;br /&gt;
* Gap penalty: Abzug im Alignmentscore, wenn bei einem lokalen Alignment eine Base ungepaart ist (z.B. &lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 AATTGGCC&lt;br /&gt;
 TT-AACCGG&lt;br /&gt;
|}&lt;br /&gt;
hätte an Position 3 ein Gap und somit eine Gap penalty.)&lt;br /&gt;
&lt;br /&gt;
* Fasta-Format: textbasiertes Format in dem DNA, RNA und Proteinsequenzen gespeichert werden. Besteht aus 2-3 Zeilen pro Sequenz. die erste Zeile besteht aus einem Header der mit &amp;gt; beginnt und Namen und Beschreibung der Sequenz beinhaltet, danach folgt eine optinale Kommentarzeile, gefolgt von der Zeile mit der eigentlichen Sequenz. Mehrere Sequenzen können in einer Datei gespeichert werden, wenn man einen neuen Header für jede Sequenz beginnt. &lt;br /&gt;
&lt;br /&gt;
Beispiel:&lt;br /&gt;
&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 &amp;gt;Probesequenz_1_20190502_ABC&lt;br /&gt;
 AATTAAGCATAAATAGGCTAGCTAAGCTAGCCA&lt;br /&gt;
 &amp;gt;Probesequenz_2_20190502_ABC&lt;br /&gt;
 GGGATTCGACCGATCGAAGCTTAGCGAACGAGA&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
* Algorithmus: Handlungsanweisung zur Lösung eines Problems, besteht aus definierten, sequentiellen Abschnitten.&lt;br /&gt;
&lt;br /&gt;
b.: Welche grundsätzlichen Arten von Alignment gibt es?&lt;br /&gt;
&lt;br /&gt;
Lokales Alignment: Alignment von unterschiedlichen (Teil)-Sequenzen, normalerweise unter der Verwendung des Smith-Waterman-Algorithmuses. Wird mit längeren Teilsequenzen immer aufwändiger.&lt;br /&gt;
&lt;br /&gt;
Globales Alignment: Volle Sequenzen werden miteinander alignt. Wird oftmals mit dem Needleman-Wunsch Algorithmus bearbeitet.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2: Smith-Waterman ==&lt;br /&gt;
&lt;br /&gt;
a.: Erkläre welche Funktion der Smith-Waterman-Algorithmus hat und wie er funktioniert.&lt;br /&gt;
&lt;br /&gt;
Der Smith-Waterman Algorithmus wird verwendet um lokale Alignments zu finden.&lt;br /&gt;
&lt;br /&gt;
Berechnet wird es mit folgender Matrix: &lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt;S(i,j) = \max \begin{Bmatrix}&lt;br /&gt;
0  \\&lt;br /&gt;
H(i-1,j-1) + \ s(a_i,b_j) &amp;amp; \text{I} \\&lt;br /&gt;
H(i-1,j) + \ s(a_i,eps) &amp;amp; \text{II} \\&lt;br /&gt;
H(i,j-1) + \ s(eps,b_j) &amp;amp; \text{III}&lt;br /&gt;
\end{Bmatrix}&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Erklärt bedeutet dies, das eine Matrix aufgespannt wird mit der Größe Länge von Sequenz A x Länge der Sequenz B, so repräsentiert jede Zelle in der Matrix eine Kombination von einer Base aus Sequenz A und einer Base aus Sequenz B und kann somit als Match oder Mismatch identifiziert werden. &lt;br /&gt;
Eine Zahlenbewertung (Score) für Match, Mismatch und Gap muss vorgegeben werden.&lt;br /&gt;
Für jede Zelle der Matrix wird ein Wert berechnet, angefangen oben links und beendet unten rechts in der Matrix. &lt;br /&gt;
Der Wert für eine bestimmte Zelle ist der höchste Wert aus den folgenden 4:&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert für die Zelle links oben  diagonal (oder 0 falls dies außerhalb der Matrix liegt) plus den Score der Zelle (Match oder Mismatch).&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert aus der Zelle links daneben plus den Score für einen Gap.&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert aus Zelle oberhalb plus den Score für einen Gap.&lt;br /&gt;
&lt;br /&gt;
* Null&lt;br /&gt;
&lt;br /&gt;
Die Matrix wird berechnet bis alle Werte bestimmt sind. Dann wird der höchste Wert der gesamten Matrix gesucht. Von diesem Punkt beginnt das Alignment. Von dort aus wird rückwärts die Sequenz bestimmt indem die Rechnung rückwärts verfolgt wird. Der nächste Sequenzteil ist dann jeweils immer die Zelle von der aus man den höchsten Wert berechnet hat. Sobald man jedoch nach links oder nach oben geht anstatt diagonal zu gehen muss man beachten dass man hierbei ein Gap in das Alignment einbaut und dies auch so aufschreiben muss.&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt; &lt;br /&gt;
&lt;br /&gt;
File:Matrix berechnen.png|Zuerst berechnet man jede Zelle der Matrix...&lt;br /&gt;
File:Alignment finden.png|...und geht dann vom höchsten Wert rückwärts&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
b.: Wo in der Smith-Waterman-Matrix beginnt und endet das optimale Alignment?&lt;br /&gt;
&lt;br /&gt;
Das optimale Alignment beginnt bei den höchsten Wert, folgt dann dem Berechnungsstrang bis das erste Mal auf eine 0 getroffen wird. Dort bricht das Alignment ab. &lt;br /&gt;
&lt;br /&gt;
c.: Welche Alignment-Art wird durch den Smith-Waterman Algorithmus bestimmt?&lt;br /&gt;
&lt;br /&gt;
Mit dem Algorithmus wird ein lokales Alignment bestimmt.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 3: lokales Alignment ==&lt;br /&gt;
&lt;br /&gt;
Führe ein Alignment der folgenden Sequenzen durch: GCDGC GDG&lt;br /&gt;
&lt;br /&gt;
Verwende den Ähnlichkeitsscore S: Match = 3 | Mismatch = -2 | Gap = -4&lt;br /&gt;
&lt;br /&gt;
Berechne für die beiden Sequenzen ein optimales lokales Alignment nah Smith-Waterman mit den gleichen Bedingungen.&lt;br /&gt;
Welches optimale lokale Alignment ergibt sich?&lt;br /&gt;
Rechts ist die Lösungsmatrix dargestellt, der Score des Alignments ist 6.&lt;br /&gt;
[[File:A3U3.png|thumb]]&lt;br /&gt;
== Aufgabe 4: Alignment ==&lt;br /&gt;
&lt;br /&gt;
Während deiner Bachelorarbeit sollst du ein Protein, das du gerade versuchst zu&lt;br /&gt;
charakterisieren, in einen groben Kontext bringen. Leider weißt du noch nicht viel über das&lt;br /&gt;
Protein.&lt;br /&gt;
Daher ist dein erster Schritt, gemeinsame Domänen zwischen den Proteinen zu finden.&lt;br /&gt;
Für das Protein hat sich folgende Sequenz ergeben: DDCGDC&lt;br /&gt;
Durch einen Abgleich der Sequenz mit einer Datenbank kann die Sequenz mit anderen&lt;br /&gt;
Sequenzen verglichen und ein optimales Alignment gefunden werden.&lt;br /&gt;
Wieso eignet sich hier der Smith-Waterman Algorithmus?&lt;br /&gt;
Führe ein Alignment zwischen der oben ermittelten Sequenz und der folgenden durch:&lt;br /&gt;
&lt;br /&gt;
DGGD&lt;br /&gt;
&lt;br /&gt;
Ähnlichkeitsscore S: match = 3 | mismatch = -1 | gap penalty = -4&lt;br /&gt;
&lt;br /&gt;
Smith-Waterman nutzt man für lokale Alignments, hier ist dies nützlich da wir Ausschnitte aus zwei funktionell ähnlichen Domänen vergleichen.&lt;br /&gt;
&lt;br /&gt;
[[File:U3A4.png|thumb]]&lt;br /&gt;
&lt;br /&gt;
Das Alignment ist somit: &lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 DCGD&lt;br /&gt;
 DGGD&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 5: Lander-Waterman-Modell ==&lt;br /&gt;
&lt;br /&gt;
a. Was sagt das Lander-Waterman-Modell aus? Benne die darauf beruhende Formel&lt;br /&gt;
sowie ihre Bestandteile.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:U3A4.png&amp;diff=145</id>
		<title>File:U3A4.png</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:U3A4.png&amp;diff=145"/>
		<updated>2019-06-03T19:21:06Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: Matrix zur Lösung von Aufgabe 4 von Übung 3&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== Summary ==&lt;br /&gt;
Matrix zur Lösung von Aufgabe 4 von Übung 3&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=144</id>
		<title>3.Smith-Waterman</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=144"/>
		<updated>2019-06-03T19:13:02Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: /* Aufgabe 3 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war zum Donnerstag, den 02.05.2019 abzugeben. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: Definitionen ==&lt;br /&gt;
&lt;br /&gt;
a.: Definiere die folgenden Begriffe:&lt;br /&gt;
&lt;br /&gt;
* Alignment: Methode, bei der verschiedene Sequenzen optimal aufeinander ausgerichtet werden um übereinstimmende Teile untereinander sichtbar zu machen. Die kann entweder zwischen einem Read und einem Referenzgenom passieren oder zwischen zwei Reads im Zuge der RNAseq. &lt;br /&gt;
&lt;br /&gt;
* Dynamic Programming: Algorithmus zum Lösen von informatischen Problemen. Dabei wird ein Problem in Teilprobleme unterteilt, die nach und nach gelöst und gespeichert werden. Die kann auf Assemblies angewandt werden, indem man die reads nach und nach aneinanderfügt, anstatt dies in einem einzigen Programmschritt durchzuführen. Dabei wird stets ein Paar mit maximalem Match verbunden bevor das nächste Paar verwendet wird. &lt;br /&gt;
&lt;br /&gt;
* lokales Alignment: Alignment von zwei (Teil)-Sequenzen, wird mit dem Smith-Waterman-Algorithmus durchgeführt. Zur Berechnung müssen die Teilsequenzen gefunden werden, die den höchsten Alignmentscore besitzen. &lt;br /&gt;
&lt;br /&gt;
* Gap penalty: Abzug im Alignmentscore, wenn bei einem lokalen Alignment eine Base ungepaart ist (z.B. &lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 AATTGGCC&lt;br /&gt;
 TT-AACCGG&lt;br /&gt;
|}&lt;br /&gt;
hätte an Position 3 ein Gap und somit eine Gap penalty.)&lt;br /&gt;
&lt;br /&gt;
* Fasta-Format: textbasiertes Format in dem DNA, RNA und Proteinsequenzen gespeichert werden. Besteht aus 2-3 Zeilen pro Sequenz. die erste Zeile besteht aus einem Header der mit &amp;gt; beginnt und Namen und Beschreibung der Sequenz beinhaltet, danach folgt eine optinale Kommentarzeile, gefolgt von der Zeile mit der eigentlichen Sequenz. Mehrere Sequenzen können in einer Datei gespeichert werden, wenn man einen neuen Header für jede Sequenz beginnt. &lt;br /&gt;
&lt;br /&gt;
Beispiel:&lt;br /&gt;
&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 &amp;gt;Probesequenz_1_20190502_ABC&lt;br /&gt;
 AATTAAGCATAAATAGGCTAGCTAAGCTAGCCA&lt;br /&gt;
 &amp;gt;Probesequenz_2_20190502_ABC&lt;br /&gt;
 GGGATTCGACCGATCGAAGCTTAGCGAACGAGA&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
* Algorithmus: Handlungsanweisung zur Lösung eines Problems, besteht aus definierten, sequentiellen Abschnitten.&lt;br /&gt;
&lt;br /&gt;
b.: Welche grundsätzlichen Arten von Alignment gibt es?&lt;br /&gt;
&lt;br /&gt;
Lokales Alignment: Alignment von unterschiedlichen (Teil)-Sequenzen, normalerweise unter der Verwendung des Smith-Waterman-Algorithmuses. Wird mit längeren Teilsequenzen immer aufwändiger.&lt;br /&gt;
&lt;br /&gt;
Globales Alignment: Volle Sequenzen werden miteinander alignt. Wird oftmals mit dem Needleman-Wunsch Algorithmus bearbeitet.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2 ==&lt;br /&gt;
&lt;br /&gt;
a.: Erkläre welche Funktion der Smith-Waterman-Algorithmus hat und wie er funktioniert.&lt;br /&gt;
&lt;br /&gt;
Der Smith-Waterman Algorithmus wird verwendet um lokale Alignments zu finden.&lt;br /&gt;
&lt;br /&gt;
Berechnet wird es mit folgender Matrix: &lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt;S(i,j) = \max \begin{Bmatrix}&lt;br /&gt;
0  \\&lt;br /&gt;
H(i-1,j-1) + \ s(a_i,b_j) &amp;amp; \text{I} \\&lt;br /&gt;
H(i-1,j) + \ s(a_i,eps) &amp;amp; \text{II} \\&lt;br /&gt;
H(i,j-1) + \ s(eps,b_j) &amp;amp; \text{III}&lt;br /&gt;
\end{Bmatrix}&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Erklärt bedeutet dies, das eine Matrix aufgespannt wird mit der Größe Länge von Sequenz A x Länge der Sequenz B, so repräsentiert jede Zelle in der Matrix eine Kombination von einer Base aus Sequenz A und einer Base aus Sequenz B und kann somit als Match oder Mismatch identifiziert werden. &lt;br /&gt;
Eine Zahlenbewertung (Score) für Match, Mismatch und Gap muss vorgegeben werden.&lt;br /&gt;
Für jede Zelle der Matrix wird ein Wert berechnet, angefangen oben links und beendet unten rechts in der Matrix. &lt;br /&gt;
Der Wert für eine bestimmte Zelle ist der höchste Wert aus den folgenden 4:&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert für die Zelle links oben  diagonal (oder 0 falls dies außerhalb der Matrix liegt) plus den Score der Zelle (Match oder Mismatch).&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert aus der Zelle links daneben plus den Score für einen Gap.&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert aus Zelle oberhalb plus den Score für einen Gap.&lt;br /&gt;
&lt;br /&gt;
* Null&lt;br /&gt;
&lt;br /&gt;
Die Matrix wird berechnet bis alle Werte bestimmt sind. Dann wird der höchste Wert der gesamten Matrix gesucht. Von diesem Punkt beginnt das Alignment. Von dort aus wird rückwärts die Sequenz bestimmt indem die Rechnung rückwärts verfolgt wird. Der nächste Sequenzteil ist dann jeweils immer die Zelle von der aus man den höchsten Wert berechnet hat. Sobald man jedoch nach links oder nach oben geht anstatt diagonal zu gehen muss man beachten dass man hierbei ein Gap in das Alignment einbaut und dies auch so aufschreiben muss.&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt; &lt;br /&gt;
&lt;br /&gt;
File:Matrix berechnen.png|Zuerst berechnet man jede Zelle der Matrix...&lt;br /&gt;
File:Alignment finden.png|...und geht dann vom höchsten Wert rückwärts&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
b.: Wo in der Smith-Waterman-Matrix beginnt und endet das optimale Alignment?&lt;br /&gt;
&lt;br /&gt;
Das optimale Alignment beginnt bei den höchsten Wert, folgt dann dem Berechnungsstrang bis das erste Mal auf eine 0 getroffen wird. Dort bricht das Alignment ab. &lt;br /&gt;
&lt;br /&gt;
c.: Welche Alignment-Art wird durch den Smith-Waterman Algorithmus bestimmt?&lt;br /&gt;
&lt;br /&gt;
Mit dem Algorithmus wird ein lokales Alignment bestimmt.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 3 ==&lt;br /&gt;
&lt;br /&gt;
Führe ein Alignment der folgenden Sequenzen durch: GCDGC GDG&lt;br /&gt;
&lt;br /&gt;
Verwende den Ähnlichkeitsscore S: Match = 3 | Mismatch = -2 | Gap = -4&lt;br /&gt;
&lt;br /&gt;
Berechne für die beiden Sequenzen ein optimales lokales Alignment nah Smith-Waterman mit den gleichen Bedingungen.&lt;br /&gt;
Welches optimale lokale Alignment ergibt sich?&lt;br /&gt;
Rechts ist die Lösungsmatrix dargestellt, der Score des Alignments ist 6.&lt;br /&gt;
[[File:A3U3.png|thumb]]&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=139</id>
		<title>3.Smith-Waterman</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=139"/>
		<updated>2019-06-02T21:58:36Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: /* Aufgabe 3 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war zum Donnerstag, den 02.05.2019 abzugeben. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: Definitionen ==&lt;br /&gt;
&lt;br /&gt;
a.: Definiere die folgenden Begriffe:&lt;br /&gt;
&lt;br /&gt;
* Alignment: Methode, bei der verschiedene Sequenzen optimal aufeinander ausgerichtet werden um übereinstimmende Teile untereinander sichtbar zu machen. Die kann entweder zwischen einem Read und einem Referenzgenom passieren oder zwischen zwei Reads im Zuge der RNAseq. &lt;br /&gt;
&lt;br /&gt;
* Dynamic Programming: Algorithmus zum Lösen von informatischen Problemen. Dabei wird ein Problem in Teilprobleme unterteilt, die nach und nach gelöst und gespeichert werden. Die kann auf Assemblies angewandt werden, indem man die reads nach und nach aneinanderfügt, anstatt dies in einem einzigen Programmschritt durchzuführen. Dabei wird stets ein Paar mit maximalem Match verbunden bevor das nächste Paar verwendet wird. &lt;br /&gt;
&lt;br /&gt;
* lokales Alignment: Alignment von zwei (Teil)-Sequenzen, wird mit dem Smith-Waterman-Algorithmus durchgeführt. Zur Berechnung müssen die Teilsequenzen gefunden werden, die den höchsten Alignmentscore besitzen. &lt;br /&gt;
&lt;br /&gt;
* Gap penalty: Abzug im Alignmentscore, wenn bei einem lokalen Alignment eine Base ungepaart ist (z.B. &lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 AATTGGCC&lt;br /&gt;
 TT-AACCGG&lt;br /&gt;
|}&lt;br /&gt;
hätte an Position 3 ein Gap und somit eine Gap penalty.)&lt;br /&gt;
&lt;br /&gt;
* Fasta-Format: textbasiertes Format in dem DNA, RNA und Proteinsequenzen gespeichert werden. Besteht aus 2-3 Zeilen pro Sequenz. die erste Zeile besteht aus einem Header der mit &amp;gt; beginnt und Namen und Beschreibung der Sequenz beinhaltet, danach folgt eine optinale Kommentarzeile, gefolgt von der Zeile mit der eigentlichen Sequenz. Mehrere Sequenzen können in einer Datei gespeichert werden, wenn man einen neuen Header für jede Sequenz beginnt. &lt;br /&gt;
&lt;br /&gt;
Beispiel:&lt;br /&gt;
&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 &amp;gt;Probesequenz_1_20190502_ABC&lt;br /&gt;
 AATTAAGCATAAATAGGCTAGCTAAGCTAGCCA&lt;br /&gt;
 &amp;gt;Probesequenz_2_20190502_ABC&lt;br /&gt;
 GGGATTCGACCGATCGAAGCTTAGCGAACGAGA&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
* Algorithmus: Handlungsanweisung zur Lösung eines Problems, besteht aus definierten, sequentiellen Abschnitten.&lt;br /&gt;
&lt;br /&gt;
b.: Welche grundsätzlichen Arten von Alignment gibt es?&lt;br /&gt;
&lt;br /&gt;
Lokales Alignment: Alignment von unterschiedlichen (Teil)-Sequenzen, normalerweise unter der Verwendung des Smith-Waterman-Algorithmuses. Wird mit längeren Teilsequenzen immer aufwändiger.&lt;br /&gt;
&lt;br /&gt;
Globales Alignment: Volle Sequenzen werden miteinander alignt. Wird oftmals mit dem Needleman-Wunsch Algorithmus bearbeitet.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2 ==&lt;br /&gt;
&lt;br /&gt;
a.: Erkläre welche Funktion der Smith-Waterman-Algorithmus hat und wie er funktioniert.&lt;br /&gt;
&lt;br /&gt;
Der Smith-Waterman Algorithmus wird verwendet um lokale Alignments zu finden.&lt;br /&gt;
&lt;br /&gt;
Berechnet wird es mit folgender Matrix: &lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt;S(i,j) = \max \begin{Bmatrix}&lt;br /&gt;
0  \\&lt;br /&gt;
H(i-1,j-1) + \ s(a_i,b_j) &amp;amp; \text{I} \\&lt;br /&gt;
H(i-1,j) + \ s(a_i,eps) &amp;amp; \text{II} \\&lt;br /&gt;
H(i,j-1) + \ s(eps,b_j) &amp;amp; \text{III}&lt;br /&gt;
\end{Bmatrix}&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Erklärt bedeutet dies, das eine Matrix aufgespannt wird mit der Größe Länge von Sequenz A x Länge der Sequenz B, so repräsentiert jede Zelle in der Matrix eine Kombination von einer Base aus Sequenz A und einer Base aus Sequenz B und kann somit als Match oder Mismatch identifiziert werden. &lt;br /&gt;
Eine Zahlenbewertung (Score) für Match, Mismatch und Gap muss vorgegeben werden.&lt;br /&gt;
Für jede Zelle der Matrix wird ein Wert berechnet, angefangen oben links und beendet unten rechts in der Matrix. &lt;br /&gt;
Der Wert für eine bestimmte Zelle ist der höchste Wert aus den folgenden 4:&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert für die Zelle links oben  diagonal (oder 0 falls dies außerhalb der Matrix liegt) plus den Score der Zelle (Match oder Mismatch).&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert aus der Zelle links daneben plus den Score für einen Gap.&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert aus Zelle oberhalb plus den Score für einen Gap.&lt;br /&gt;
&lt;br /&gt;
* Null&lt;br /&gt;
&lt;br /&gt;
Die Matrix wird berechnet bis alle Werte bestimmt sind. Dann wird der höchste Wert der gesamten Matrix gesucht. Von diesem Punkt beginnt das Alignment. Von dort aus wird rückwärts die Sequenz bestimmt indem die Rechnung rückwärts verfolgt wird. Der nächste Sequenzteil ist dann jeweils immer die Zelle von der aus man den höchsten Wert berechnet hat. Sobald man jedoch nach links oder nach oben geht anstatt diagonal zu gehen muss man beachten dass man hierbei ein Gap in das Alignment einbaut und dies auch so aufschreiben muss.&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt; &lt;br /&gt;
&lt;br /&gt;
File:Matrix berechnen.png|Zuerst berechnet man jede Zelle der Matrix...&lt;br /&gt;
File:Alignment finden.png|...und geht dann vom höchsten Wert rückwärts&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
b.: Wo in der Smith-Waterman-Matrix beginnt und endet das optimale Alignment?&lt;br /&gt;
&lt;br /&gt;
Das optimale Alignment beginnt bei den höchsten Wert, folgt dann dem Berechnungsstrang bis das erste Mal auf eine 0 getroffen wird. Dort bricht das Alignment ab. &lt;br /&gt;
&lt;br /&gt;
c.: Welche Alignment-Art wird durch den Smith-Waterman Algorithmus bestimmt?&lt;br /&gt;
&lt;br /&gt;
Mit dem Algorithmus wird ein lokales Alignment bestimmt.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 3 ==&lt;br /&gt;
Rechts ist die Lösungsmatrix dargestellt, der Score des Alignments ist 6.&lt;br /&gt;
[[File:A3U3.png|thumb]]&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=138</id>
		<title>3.Smith-Waterman</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=138"/>
		<updated>2019-06-02T21:32:42Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: /* Aufgabe 3 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war zum Donnerstag, den 02.05.2019 abzugeben. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: Definitionen ==&lt;br /&gt;
&lt;br /&gt;
a.: Definiere die folgenden Begriffe:&lt;br /&gt;
&lt;br /&gt;
* Alignment: Methode, bei der verschiedene Sequenzen optimal aufeinander ausgerichtet werden um übereinstimmende Teile untereinander sichtbar zu machen. Die kann entweder zwischen einem Read und einem Referenzgenom passieren oder zwischen zwei Reads im Zuge der RNAseq. &lt;br /&gt;
&lt;br /&gt;
* Dynamic Programming: Algorithmus zum Lösen von informatischen Problemen. Dabei wird ein Problem in Teilprobleme unterteilt, die nach und nach gelöst und gespeichert werden. Die kann auf Assemblies angewandt werden, indem man die reads nach und nach aneinanderfügt, anstatt dies in einem einzigen Programmschritt durchzuführen. Dabei wird stets ein Paar mit maximalem Match verbunden bevor das nächste Paar verwendet wird. &lt;br /&gt;
&lt;br /&gt;
* lokales Alignment: Alignment von zwei (Teil)-Sequenzen, wird mit dem Smith-Waterman-Algorithmus durchgeführt. Zur Berechnung müssen die Teilsequenzen gefunden werden, die den höchsten Alignmentscore besitzen. &lt;br /&gt;
&lt;br /&gt;
* Gap penalty: Abzug im Alignmentscore, wenn bei einem lokalen Alignment eine Base ungepaart ist (z.B. &lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 AATTGGCC&lt;br /&gt;
 TT-AACCGG&lt;br /&gt;
|}&lt;br /&gt;
hätte an Position 3 ein Gap und somit eine Gap penalty.)&lt;br /&gt;
&lt;br /&gt;
* Fasta-Format: textbasiertes Format in dem DNA, RNA und Proteinsequenzen gespeichert werden. Besteht aus 2-3 Zeilen pro Sequenz. die erste Zeile besteht aus einem Header der mit &amp;gt; beginnt und Namen und Beschreibung der Sequenz beinhaltet, danach folgt eine optinale Kommentarzeile, gefolgt von der Zeile mit der eigentlichen Sequenz. Mehrere Sequenzen können in einer Datei gespeichert werden, wenn man einen neuen Header für jede Sequenz beginnt. &lt;br /&gt;
&lt;br /&gt;
Beispiel:&lt;br /&gt;
&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 &amp;gt;Probesequenz_1_20190502_ABC&lt;br /&gt;
 AATTAAGCATAAATAGGCTAGCTAAGCTAGCCA&lt;br /&gt;
 &amp;gt;Probesequenz_2_20190502_ABC&lt;br /&gt;
 GGGATTCGACCGATCGAAGCTTAGCGAACGAGA&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
* Algorithmus: Handlungsanweisung zur Lösung eines Problems, besteht aus definierten, sequentiellen Abschnitten.&lt;br /&gt;
&lt;br /&gt;
b.: Welche grundsätzlichen Arten von Alignment gibt es?&lt;br /&gt;
&lt;br /&gt;
Lokales Alignment: Alignment von unterschiedlichen (Teil)-Sequenzen, normalerweise unter der Verwendung des Smith-Waterman-Algorithmuses. Wird mit längeren Teilsequenzen immer aufwändiger.&lt;br /&gt;
&lt;br /&gt;
Globales Alignment: Volle Sequenzen werden miteinander alignt. Wird oftmals mit dem Needleman-Wunsch Algorithmus bearbeitet.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2 ==&lt;br /&gt;
&lt;br /&gt;
a.: Erkläre welche Funktion der Smith-Waterman-Algorithmus hat und wie er funktioniert.&lt;br /&gt;
&lt;br /&gt;
Der Smith-Waterman Algorithmus wird verwendet um lokale Alignments zu finden.&lt;br /&gt;
&lt;br /&gt;
Berechnet wird es mit folgender Matrix: &lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt;S(i,j) = \max \begin{Bmatrix}&lt;br /&gt;
0  \\&lt;br /&gt;
H(i-1,j-1) + \ s(a_i,b_j) &amp;amp; \text{I} \\&lt;br /&gt;
H(i-1,j) + \ s(a_i,eps) &amp;amp; \text{II} \\&lt;br /&gt;
H(i,j-1) + \ s(eps,b_j) &amp;amp; \text{III}&lt;br /&gt;
\end{Bmatrix}&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Erklärt bedeutet dies, das eine Matrix aufgespannt wird mit der Größe Länge von Sequenz A x Länge der Sequenz B, so repräsentiert jede Zelle in der Matrix eine Kombination von einer Base aus Sequenz A und einer Base aus Sequenz B und kann somit als Match oder Mismatch identifiziert werden. &lt;br /&gt;
Eine Zahlenbewertung (Score) für Match, Mismatch und Gap muss vorgegeben werden.&lt;br /&gt;
Für jede Zelle der Matrix wird ein Wert berechnet, angefangen oben links und beendet unten rechts in der Matrix. &lt;br /&gt;
Der Wert für eine bestimmte Zelle ist der höchste Wert aus den folgenden 4:&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert für die Zelle links oben  diagonal (oder 0 falls dies außerhalb der Matrix liegt) plus den Score der Zelle (Match oder Mismatch).&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert aus der Zelle links daneben plus den Score für einen Gap.&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert aus Zelle oberhalb plus den Score für einen Gap.&lt;br /&gt;
&lt;br /&gt;
* Null&lt;br /&gt;
&lt;br /&gt;
Die Matrix wird berechnet bis alle Werte bestimmt sind. Dann wird der höchste Wert der gesamten Matrix gesucht. Von diesem Punkt beginnt das Alignment. Von dort aus wird rückwärts die Sequenz bestimmt indem die Rechnung rückwärts verfolgt wird. Der nächste Sequenzteil ist dann jeweils immer die Zelle von der aus man den höchsten Wert berechnet hat. Sobald man jedoch nach links oder nach oben geht anstatt diagonal zu gehen muss man beachten dass man hierbei ein Gap in das Alignment einbaut und dies auch so aufschreiben muss.&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt; &lt;br /&gt;
&lt;br /&gt;
File:Matrix berechnen.png|Zuerst berechnet man jede Zelle der Matrix...&lt;br /&gt;
File:Alignment finden.png|...und geht dann vom höchsten Wert rückwärts&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
b.: Wo in der Smith-Waterman-Matrix beginnt und endet das optimale Alignment?&lt;br /&gt;
&lt;br /&gt;
Das optimale Alignment beginnt bei den höchsten Wert, folgt dann dem Berechnungsstrang bis das erste Mal auf eine 0 getroffen wird. Dort bricht das Alignment ab. &lt;br /&gt;
&lt;br /&gt;
c.: Welche Alignment-Art wird durch den Smith-Waterman Algorithmus bestimmt?&lt;br /&gt;
&lt;br /&gt;
Mit dem Algorithmus wird ein lokales Alignment bestimmt.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 3 ==&lt;br /&gt;
&lt;br /&gt;
[[File:A3U3.png|thumb]]&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=137</id>
		<title>3.Smith-Waterman</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=137"/>
		<updated>2019-06-02T21:32:17Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war zum Donnerstag, den 02.05.2019 abzugeben. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: Definitionen ==&lt;br /&gt;
&lt;br /&gt;
a.: Definiere die folgenden Begriffe:&lt;br /&gt;
&lt;br /&gt;
* Alignment: Methode, bei der verschiedene Sequenzen optimal aufeinander ausgerichtet werden um übereinstimmende Teile untereinander sichtbar zu machen. Die kann entweder zwischen einem Read und einem Referenzgenom passieren oder zwischen zwei Reads im Zuge der RNAseq. &lt;br /&gt;
&lt;br /&gt;
* Dynamic Programming: Algorithmus zum Lösen von informatischen Problemen. Dabei wird ein Problem in Teilprobleme unterteilt, die nach und nach gelöst und gespeichert werden. Die kann auf Assemblies angewandt werden, indem man die reads nach und nach aneinanderfügt, anstatt dies in einem einzigen Programmschritt durchzuführen. Dabei wird stets ein Paar mit maximalem Match verbunden bevor das nächste Paar verwendet wird. &lt;br /&gt;
&lt;br /&gt;
* lokales Alignment: Alignment von zwei (Teil)-Sequenzen, wird mit dem Smith-Waterman-Algorithmus durchgeführt. Zur Berechnung müssen die Teilsequenzen gefunden werden, die den höchsten Alignmentscore besitzen. &lt;br /&gt;
&lt;br /&gt;
* Gap penalty: Abzug im Alignmentscore, wenn bei einem lokalen Alignment eine Base ungepaart ist (z.B. &lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 AATTGGCC&lt;br /&gt;
 TT-AACCGG&lt;br /&gt;
|}&lt;br /&gt;
hätte an Position 3 ein Gap und somit eine Gap penalty.)&lt;br /&gt;
&lt;br /&gt;
* Fasta-Format: textbasiertes Format in dem DNA, RNA und Proteinsequenzen gespeichert werden. Besteht aus 2-3 Zeilen pro Sequenz. die erste Zeile besteht aus einem Header der mit &amp;gt; beginnt und Namen und Beschreibung der Sequenz beinhaltet, danach folgt eine optinale Kommentarzeile, gefolgt von der Zeile mit der eigentlichen Sequenz. Mehrere Sequenzen können in einer Datei gespeichert werden, wenn man einen neuen Header für jede Sequenz beginnt. &lt;br /&gt;
&lt;br /&gt;
Beispiel:&lt;br /&gt;
&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 &amp;gt;Probesequenz_1_20190502_ABC&lt;br /&gt;
 AATTAAGCATAAATAGGCTAGCTAAGCTAGCCA&lt;br /&gt;
 &amp;gt;Probesequenz_2_20190502_ABC&lt;br /&gt;
 GGGATTCGACCGATCGAAGCTTAGCGAACGAGA&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
* Algorithmus: Handlungsanweisung zur Lösung eines Problems, besteht aus definierten, sequentiellen Abschnitten.&lt;br /&gt;
&lt;br /&gt;
b.: Welche grundsätzlichen Arten von Alignment gibt es?&lt;br /&gt;
&lt;br /&gt;
Lokales Alignment: Alignment von unterschiedlichen (Teil)-Sequenzen, normalerweise unter der Verwendung des Smith-Waterman-Algorithmuses. Wird mit längeren Teilsequenzen immer aufwändiger.&lt;br /&gt;
&lt;br /&gt;
Globales Alignment: Volle Sequenzen werden miteinander alignt. Wird oftmals mit dem Needleman-Wunsch Algorithmus bearbeitet.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2 ==&lt;br /&gt;
&lt;br /&gt;
a.: Erkläre welche Funktion der Smith-Waterman-Algorithmus hat und wie er funktioniert.&lt;br /&gt;
&lt;br /&gt;
Der Smith-Waterman Algorithmus wird verwendet um lokale Alignments zu finden.&lt;br /&gt;
&lt;br /&gt;
Berechnet wird es mit folgender Matrix: &lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt;S(i,j) = \max \begin{Bmatrix}&lt;br /&gt;
0  \\&lt;br /&gt;
H(i-1,j-1) + \ s(a_i,b_j) &amp;amp; \text{I} \\&lt;br /&gt;
H(i-1,j) + \ s(a_i,eps) &amp;amp; \text{II} \\&lt;br /&gt;
H(i,j-1) + \ s(eps,b_j) &amp;amp; \text{III}&lt;br /&gt;
\end{Bmatrix}&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Erklärt bedeutet dies, das eine Matrix aufgespannt wird mit der Größe Länge von Sequenz A x Länge der Sequenz B, so repräsentiert jede Zelle in der Matrix eine Kombination von einer Base aus Sequenz A und einer Base aus Sequenz B und kann somit als Match oder Mismatch identifiziert werden. &lt;br /&gt;
Eine Zahlenbewertung (Score) für Match, Mismatch und Gap muss vorgegeben werden.&lt;br /&gt;
Für jede Zelle der Matrix wird ein Wert berechnet, angefangen oben links und beendet unten rechts in der Matrix. &lt;br /&gt;
Der Wert für eine bestimmte Zelle ist der höchste Wert aus den folgenden 4:&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert für die Zelle links oben  diagonal (oder 0 falls dies außerhalb der Matrix liegt) plus den Score der Zelle (Match oder Mismatch).&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert aus der Zelle links daneben plus den Score für einen Gap.&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert aus Zelle oberhalb plus den Score für einen Gap.&lt;br /&gt;
&lt;br /&gt;
* Null&lt;br /&gt;
&lt;br /&gt;
Die Matrix wird berechnet bis alle Werte bestimmt sind. Dann wird der höchste Wert der gesamten Matrix gesucht. Von diesem Punkt beginnt das Alignment. Von dort aus wird rückwärts die Sequenz bestimmt indem die Rechnung rückwärts verfolgt wird. Der nächste Sequenzteil ist dann jeweils immer die Zelle von der aus man den höchsten Wert berechnet hat. Sobald man jedoch nach links oder nach oben geht anstatt diagonal zu gehen muss man beachten dass man hierbei ein Gap in das Alignment einbaut und dies auch so aufschreiben muss.&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt; &lt;br /&gt;
&lt;br /&gt;
File:Matrix berechnen.png|Zuerst berechnet man jede Zelle der Matrix...&lt;br /&gt;
File:Alignment finden.png|...und geht dann vom höchsten Wert rückwärts&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
b.: Wo in der Smith-Waterman-Matrix beginnt und endet das optimale Alignment?&lt;br /&gt;
&lt;br /&gt;
Das optimale Alignment beginnt bei den höchsten Wert, folgt dann dem Berechnungsstrang bis das erste Mal auf eine 0 getroffen wird. Dort bricht das Alignment ab. &lt;br /&gt;
&lt;br /&gt;
c.: Welche Alignment-Art wird durch den Smith-Waterman Algorithmus bestimmt?&lt;br /&gt;
&lt;br /&gt;
Mit dem Algorithmus wird ein lokales Alignment bestimmt.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 3 ==&lt;br /&gt;
&lt;br /&gt;
[[File:A3U3.png|upright=0.5]]&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=136</id>
		<title>3.Smith-Waterman</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=136"/>
		<updated>2019-06-02T21:28:00Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war zum Donnerstag, den 02.05.2019 abzugeben. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: Definitionen ==&lt;br /&gt;
&lt;br /&gt;
a.: Definiere die folgenden Begriffe:&lt;br /&gt;
&lt;br /&gt;
* Alignment: Methode, bei der verschiedene Sequenzen optimal aufeinander ausgerichtet werden um übereinstimmende Teile untereinander sichtbar zu machen. Die kann entweder zwischen einem Read und einem Referenzgenom passieren oder zwischen zwei Reads im Zuge der RNAseq. &lt;br /&gt;
&lt;br /&gt;
* Dynamic Programming: Algorithmus zum Lösen von informatischen Problemen. Dabei wird ein Problem in Teilprobleme unterteilt, die nach und nach gelöst und gespeichert werden. Die kann auf Assemblies angewandt werden, indem man die reads nach und nach aneinanderfügt, anstatt dies in einem einzigen Programmschritt durchzuführen. Dabei wird stets ein Paar mit maximalem Match verbunden bevor das nächste Paar verwendet wird. &lt;br /&gt;
&lt;br /&gt;
* lokales Alignment: Alignment von zwei (Teil)-Sequenzen, wird mit dem Smith-Waterman-Algorithmus durchgeführt. Zur Berechnung müssen die Teilsequenzen gefunden werden, die den höchsten Alignmentscore besitzen. &lt;br /&gt;
&lt;br /&gt;
* Gap penalty: Abzug im Alignmentscore, wenn bei einem lokalen Alignment eine Base ungepaart ist (z.B. &lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 AATTGGCC&lt;br /&gt;
 TT-AACCGG&lt;br /&gt;
|}&lt;br /&gt;
hätte an Position 3 ein Gap und somit eine Gap penalty.)&lt;br /&gt;
&lt;br /&gt;
* Fasta-Format: textbasiertes Format in dem DNA, RNA und Proteinsequenzen gespeichert werden. Besteht aus 2-3 Zeilen pro Sequenz. die erste Zeile besteht aus einem Header der mit &amp;gt; beginnt und Namen und Beschreibung der Sequenz beinhaltet, danach folgt eine optinale Kommentarzeile, gefolgt von der Zeile mit der eigentlichen Sequenz. Mehrere Sequenzen können in einer Datei gespeichert werden, wenn man einen neuen Header für jede Sequenz beginnt. &lt;br /&gt;
&lt;br /&gt;
Beispiel:&lt;br /&gt;
&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 &amp;gt;Probesequenz_1_20190502_ABC&lt;br /&gt;
 AATTAAGCATAAATAGGCTAGCTAAGCTAGCCA&lt;br /&gt;
 &amp;gt;Probesequenz_2_20190502_ABC&lt;br /&gt;
 GGGATTCGACCGATCGAAGCTTAGCGAACGAGA&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
* Algorithmus: Handlungsanweisung zur Lösung eines Problems, besteht aus definierten, sequentiellen Abschnitten.&lt;br /&gt;
&lt;br /&gt;
b.: Welche grundsätzlichen Arten von Alignment gibt es?&lt;br /&gt;
&lt;br /&gt;
Lokales Alignment: Alignment von unterschiedlichen (Teil)-Sequenzen, normalerweise unter der Verwendung des Smith-Waterman-Algorithmuses. Wird mit längeren Teilsequenzen immer aufwändiger.&lt;br /&gt;
&lt;br /&gt;
Globales Alignment: Volle Sequenzen werden miteinander alignt. Wird oftmals mit dem Needleman-Wunsch Algorithmus bearbeitet.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2 ==&lt;br /&gt;
&lt;br /&gt;
a.: Erkläre welche Funktion der Smith-Waterman-Algorithmus hat und wie er funktioniert.&lt;br /&gt;
&lt;br /&gt;
Der Smith-Waterman Algorithmus wird verwendet um lokale Alignments zu finden.&lt;br /&gt;
&lt;br /&gt;
Berechnet wird es mit folgender Matrix: &lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt;S(i,j) = \max \begin{Bmatrix}&lt;br /&gt;
0  \\&lt;br /&gt;
H(i-1,j-1) + \ s(a_i,b_j) &amp;amp; \text{I} \\&lt;br /&gt;
H(i-1,j) + \ s(a_i,eps) &amp;amp; \text{II} \\&lt;br /&gt;
H(i,j-1) + \ s(eps,b_j) &amp;amp; \text{III}&lt;br /&gt;
\end{Bmatrix}&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Erklärt bedeutet dies, das eine Matrix aufgespannt wird mit der Größe Länge von Sequenz A x Länge der Sequenz B, so repräsentiert jede Zelle in der Matrix eine Kombination von einer Base aus Sequenz A und einer Base aus Sequenz B und kann somit als Match oder Mismatch identifiziert werden. &lt;br /&gt;
Eine Zahlenbewertung (Score) für Match, Mismatch und Gap muss vorgegeben werden.&lt;br /&gt;
Für jede Zelle der Matrix wird ein Wert berechnet, angefangen oben links und beendet unten rechts in der Matrix. &lt;br /&gt;
Der Wert für eine bestimmte Zelle ist der höchste Wert aus den folgenden 4:&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert für die Zelle links oben  diagonal (oder 0 falls dies außerhalb der Matrix liegt) plus den Score der Zelle (Match oder Mismatch).&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert aus der Zelle links daneben plus den Score für einen Gap.&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert aus Zelle oberhalb plus den Score für einen Gap.&lt;br /&gt;
&lt;br /&gt;
* Null&lt;br /&gt;
&lt;br /&gt;
Die Matrix wird berechnet bis alle Werte bestimmt sind. Dann wird der höchste Wert der gesamten Matrix gesucht. Von diesem Punkt beginnt das Alignment. Von dort aus wird rückwärts die Sequenz bestimmt indem die Rechnung rückwärts verfolgt wird. Der nächste Sequenzteil ist dann jeweils immer die Zelle von der aus man den höchsten Wert berechnet hat. Sobald man jedoch nach links oder nach oben geht anstatt diagonal zu gehen muss man beachten dass man hierbei ein Gap in das Alignment einbaut und dies auch so aufschreiben muss.&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt; &lt;br /&gt;
&lt;br /&gt;
File:Matrix berechnen.png|Zuerst berechnet man jede Zelle der Matrix...&lt;br /&gt;
File:Alignment finden.png|...und geht dann vom höchsten Wert rückwärts&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
b.: Wo in der Smith-Waterman-Matrix beginnt und endet das optimale Alignment?&lt;br /&gt;
&lt;br /&gt;
Das optimale Alignment beginnt bei den höchsten Wert, folgt dann dem Berechnungsstrang bis das erste Mal auf eine 0 getroffen wird. Dort bricht das Alignment ab. &lt;br /&gt;
&lt;br /&gt;
c.: Welche Alignment-Art wird durch den Smith-Waterman Algorithmus bestimmt?&lt;br /&gt;
&lt;br /&gt;
Mit dem Algorithmus wird ein lokales Alignment bestimmt.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 3 ==&lt;br /&gt;
&lt;br /&gt;
[[File:A3U3.png|1000px|frame|center]]&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:A3U3.png&amp;diff=135</id>
		<title>File:A3U3.png</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:A3U3.png&amp;diff=135"/>
		<updated>2019-06-02T21:26:39Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: Lösung von Aufgabe 3 in Übung 3&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== Summary ==&lt;br /&gt;
Lösung von Aufgabe 3 in Übung 3&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=134</id>
		<title>3.Smith-Waterman</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=134"/>
		<updated>2019-06-02T18:59:24Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: /* Aufgabe 2 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war zum Donnerstag, den 02.05.2019 abzugeben. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: Definitionen ==&lt;br /&gt;
&lt;br /&gt;
a.: Definiere die folgenden Begriffe:&lt;br /&gt;
&lt;br /&gt;
* Alignment: Methode, bei der verschiedene Sequenzen optimal aufeinander ausgerichtet werden um übereinstimmende Teile untereinander sichtbar zu machen. Die kann entweder zwischen einem Read und einem Referenzgenom passieren oder zwischen zwei Reads im Zuge der RNAseq. &lt;br /&gt;
&lt;br /&gt;
* Dynamic Programming: Algorithmus zum Lösen von informatischen Problemen. Dabei wird ein Problem in Teilprobleme unterteilt, die nach und nach gelöst und gespeichert werden. Die kann auf Assemblies angewandt werden, indem man die reads nach und nach aneinanderfügt, anstatt dies in einem einzigen Programmschritt durchzuführen. Dabei wird stets ein Paar mit maximalem Match verbunden bevor das nächste Paar verwendet wird. &lt;br /&gt;
&lt;br /&gt;
* lokales Alignment: Alignment von zwei (Teil)-Sequenzen, wird mit dem Smith-Waterman-Algorithmus durchgeführt. Zur Berechnung müssen die Teilsequenzen gefunden werden, die den höchsten Alignmentscore besitzen. &lt;br /&gt;
&lt;br /&gt;
* Gap penalty: Abzug im Alignmentscore, wenn bei einem lokalen Alignment eine Base ungepaart ist (z.B. &lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 AATTGGCC&lt;br /&gt;
 TT-AACCGG&lt;br /&gt;
|}&lt;br /&gt;
hätte an Position 3 ein Gap und somit eine Gap penalty.)&lt;br /&gt;
&lt;br /&gt;
* Fasta-Format: textbasiertes Format in dem DNA, RNA und Proteinsequenzen gespeichert werden. Besteht aus 2-3 Zeilen pro Sequenz. die erste Zeile besteht aus einem Header der mit &amp;gt; beginnt und Namen und Beschreibung der Sequenz beinhaltet, danach folgt eine optinale Kommentarzeile, gefolgt von der Zeile mit der eigentlichen Sequenz. Mehrere Sequenzen können in einer Datei gespeichert werden, wenn man einen neuen Header für jede Sequenz beginnt. &lt;br /&gt;
&lt;br /&gt;
Beispiel:&lt;br /&gt;
&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 &amp;gt;Probesequenz_1_20190502_ABC&lt;br /&gt;
 AATTAAGCATAAATAGGCTAGCTAAGCTAGCCA&lt;br /&gt;
 &amp;gt;Probesequenz_2_20190502_ABC&lt;br /&gt;
 GGGATTCGACCGATCGAAGCTTAGCGAACGAGA&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
* Algorithmus: Handlungsanweisung zur Lösung eines Problems, besteht aus definierten, sequentiellen Abschnitten.&lt;br /&gt;
&lt;br /&gt;
b.: Welche grundsätzlichen Arten von Alignment gibt es?&lt;br /&gt;
&lt;br /&gt;
Lokales Alignment: Alignment von unterschiedlichen (Teil)-Sequenzen, normalerweise unter der Verwendung des Smith-Waterman-Algorithmuses. Wird mit längeren Teilsequenzen immer aufwändiger.&lt;br /&gt;
&lt;br /&gt;
Globales Alignment: Volle Sequenzen werden miteinander alignt. Wird oftmals mit dem Needleman-Wunsch Algorithmus bearbeitet.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2 ==&lt;br /&gt;
&lt;br /&gt;
a.: Erkläre welche Funktion der Smith-Waterman-Algorithmus hat und wie er funktioniert.&lt;br /&gt;
&lt;br /&gt;
Der Smith-Waterman Algorithmus wird verwendet um lokale Alignments zu finden.&lt;br /&gt;
&lt;br /&gt;
Berechnet wird es mit folgender Matrix: &lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt;S(i,j) = \max \begin{Bmatrix}&lt;br /&gt;
0  \\&lt;br /&gt;
H(i-1,j-1) + \ s(a_i,b_j) &amp;amp; \text{I} \\&lt;br /&gt;
H(i-1,j) + \ s(a_i,eps) &amp;amp; \text{II} \\&lt;br /&gt;
H(i,j-1) + \ s(eps,b_j) &amp;amp; \text{III}&lt;br /&gt;
\end{Bmatrix}&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Erklärt bedeutet dies, das eine Matrix aufgespannt wird mit der Größe Länge von Sequenz A x Länge der Sequenz B, so repräsentiert jede Zelle in der Matrix eine Kombination von einer Base aus Sequenz A und einer Base aus Sequenz B und kann somit als Match oder Mismatch identifiziert werden. &lt;br /&gt;
Eine Zahlenbewertung (Score) für Match, Mismatch und Gap muss vorgegeben werden.&lt;br /&gt;
Für jede Zelle der Matrix wird ein Wert berechnet, angefangen oben links und beendet unten rechts in der Matrix. &lt;br /&gt;
Der Wert für eine bestimmte Zelle ist der höchste Wert aus den folgenden 4:&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert für die Zelle links oben  diagonal (oder 0 falls dies außerhalb der Matrix liegt) plus den Score der Zelle (Match oder Mismatch).&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert aus der Zelle links daneben plus den Score für einen Gap.&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert aus Zelle oberhalb plus den Score für einen Gap.&lt;br /&gt;
&lt;br /&gt;
* Null&lt;br /&gt;
&lt;br /&gt;
Die Matrix wird berechnet bis alle Werte bestimmt sind. Dann wird der höchste Wert der gesamten Matrix gesucht. Von diesem Punkt beginnt das Alignment. Von dort aus wird rückwärts die Sequenz bestimmt indem die Rechnung rückwärts verfolgt wird. Der nächste Sequenzteil ist dann jeweils immer die Zelle von der aus man den höchsten Wert berechnet hat. Sobald man jedoch nach links oder nach oben geht anstatt diagonal zu gehen muss man beachten dass man hierbei ein Gap in das Alignment einbaut und dies auch so aufschreiben muss.&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt; &lt;br /&gt;
&lt;br /&gt;
File:Matrix berechnen.png|Zuerst berechnet man jede Zelle der Matrix...&lt;br /&gt;
File:Alignment finden.png|...und geht dann vom höchsten Wert rückwärts&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;br /&gt;
&lt;br /&gt;
b.: Wo in der Smith-Waterman-Matrix beginnt und endet das optimale Alignment?&lt;br /&gt;
&lt;br /&gt;
Das optimale Alignment beginnt bei den höchsten Wert, folgt dann dem Berechnungsstrang bis das erste Mal auf eine 0 getroffen wird. Dort bricht das Alignment ab. &lt;br /&gt;
&lt;br /&gt;
c.: Welche Alignment-Art wird durch den Smith-Waterman Algorithmus bestimmt?&lt;br /&gt;
&lt;br /&gt;
Mit dem Algorithmus wird ein lokales Alignment bestimmt.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 3 ==&lt;br /&gt;
&lt;br /&gt;
WIP&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=133</id>
		<title>3.Smith-Waterman</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=133"/>
		<updated>2019-06-02T18:55:02Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war zum Donnerstag, den 02.05.2019 abzugeben. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: Definitionen ==&lt;br /&gt;
&lt;br /&gt;
a.: Definiere die folgenden Begriffe:&lt;br /&gt;
&lt;br /&gt;
* Alignment: Methode, bei der verschiedene Sequenzen optimal aufeinander ausgerichtet werden um übereinstimmende Teile untereinander sichtbar zu machen. Die kann entweder zwischen einem Read und einem Referenzgenom passieren oder zwischen zwei Reads im Zuge der RNAseq. &lt;br /&gt;
&lt;br /&gt;
* Dynamic Programming: Algorithmus zum Lösen von informatischen Problemen. Dabei wird ein Problem in Teilprobleme unterteilt, die nach und nach gelöst und gespeichert werden. Die kann auf Assemblies angewandt werden, indem man die reads nach und nach aneinanderfügt, anstatt dies in einem einzigen Programmschritt durchzuführen. Dabei wird stets ein Paar mit maximalem Match verbunden bevor das nächste Paar verwendet wird. &lt;br /&gt;
&lt;br /&gt;
* lokales Alignment: Alignment von zwei (Teil)-Sequenzen, wird mit dem Smith-Waterman-Algorithmus durchgeführt. Zur Berechnung müssen die Teilsequenzen gefunden werden, die den höchsten Alignmentscore besitzen. &lt;br /&gt;
&lt;br /&gt;
* Gap penalty: Abzug im Alignmentscore, wenn bei einem lokalen Alignment eine Base ungepaart ist (z.B. &lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 AATTGGCC&lt;br /&gt;
 TT-AACCGG&lt;br /&gt;
|}&lt;br /&gt;
hätte an Position 3 ein Gap und somit eine Gap penalty.)&lt;br /&gt;
&lt;br /&gt;
* Fasta-Format: textbasiertes Format in dem DNA, RNA und Proteinsequenzen gespeichert werden. Besteht aus 2-3 Zeilen pro Sequenz. die erste Zeile besteht aus einem Header der mit &amp;gt; beginnt und Namen und Beschreibung der Sequenz beinhaltet, danach folgt eine optinale Kommentarzeile, gefolgt von der Zeile mit der eigentlichen Sequenz. Mehrere Sequenzen können in einer Datei gespeichert werden, wenn man einen neuen Header für jede Sequenz beginnt. &lt;br /&gt;
&lt;br /&gt;
Beispiel:&lt;br /&gt;
&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 &amp;gt;Probesequenz_1_20190502_ABC&lt;br /&gt;
 AATTAAGCATAAATAGGCTAGCTAAGCTAGCCA&lt;br /&gt;
 &amp;gt;Probesequenz_2_20190502_ABC&lt;br /&gt;
 GGGATTCGACCGATCGAAGCTTAGCGAACGAGA&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
* Algorithmus: Handlungsanweisung zur Lösung eines Problems, besteht aus definierten, sequentiellen Abschnitten.&lt;br /&gt;
&lt;br /&gt;
b.: Welche grundsätzlichen Arten von Alignment gibt es?&lt;br /&gt;
&lt;br /&gt;
Lokales Alignment: Alignment von unterschiedlichen (Teil)-Sequenzen, normalerweise unter der Verwendung des Smith-Waterman-Algorithmuses. Wird mit längeren Teilsequenzen immer aufwändiger.&lt;br /&gt;
&lt;br /&gt;
Globales Alignment: Volle Sequenzen werden miteinander alignt. Wird oftmals mit dem Needleman-Wunsch Algorithmus bearbeitet.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2 ==&lt;br /&gt;
&lt;br /&gt;
a.: Erkläre welche Funktion der Smith-Waterman-Algorithmus hat und wie er funktioniert.&lt;br /&gt;
&lt;br /&gt;
Der Smith-Waterman Algorithmus wird verwendet um lokale Alignments zu finden.&lt;br /&gt;
&lt;br /&gt;
Berechnet wird es mit folgender Matrix: &lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt;S(i,j) = \max \begin{Bmatrix}&lt;br /&gt;
0  \\&lt;br /&gt;
H(i-1,j-1) + \ s(a_i,b_j) &amp;amp; \text{I} \\&lt;br /&gt;
H(i-1,j) + \ s(a_i,eps) &amp;amp; \text{II} \\&lt;br /&gt;
H(i,j-1) + \ s(eps,b_j) &amp;amp; \text{III}&lt;br /&gt;
\end{Bmatrix}&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Erklärt bedeutet dies, das eine Matrix aufgespannt wird mit der Größe Länge von Sequenz A x Länge der Sequenz B, so repräsentiert jede Zelle in der Matrix eine Kombination von einer Base aus Sequenz A und einer Base aus Sequenz B und kann somit als Match oder Mismatch identifiziert werden. &lt;br /&gt;
Eine Zahlenbewertung (Score) für Match, Mismatch und Gap muss vorgegeben werden.&lt;br /&gt;
Für jede Zelle der Matrix wird ein Wert berechnet, angefangen oben links und beendet unten rechts in der Matrix. &lt;br /&gt;
Der Wert für eine bestimmte Zelle ist der höchste Wert aus den folgenden 4:&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert für die Zelle links oben  diagonal (oder 0 falls dies außerhalb der Matrix liegt) plus den Score der Zelle (Match oder Mismatch).&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert aus der Zelle links daneben plus den Score für einen Gap.&lt;br /&gt;
&lt;br /&gt;
* Der höchste Wert aus Zelle oberhalb plus den Score für einen Gap.&lt;br /&gt;
&lt;br /&gt;
* Null&lt;br /&gt;
&lt;br /&gt;
Die Matrix wird berechnet bis alle Werte bestimmt sind. Dann wird der höchste Wert der gesamten Matrix gesucht. Von diesem Punkt beginnt das Alignment. Von dort aus wird rückwärts die Sequenz bestimmt indem die Rechnung rückwärts verfolgt wird. Der nächste Sequenzteil ist dann jeweils immer die Zelle von der aus man den höchsten Wert berechnet hat. Sobald man jedoch nach links oder nach oben geht anstatt diagonal zu gehen muss man beachten dass man hierbei ein Gap in das Alignment einbaut und dies auch so aufschreiben muss.&lt;br /&gt;
&lt;br /&gt;
&amp;lt;gallery&amp;gt; &lt;br /&gt;
&lt;br /&gt;
File:Matrix berechnen.png|Zuerst berechnet man jede Zelle der Matrix...&lt;br /&gt;
File:Alignment finden.png|...und geht dann vom höchsten Wert rückwärts&lt;br /&gt;
&amp;lt;/gallery&amp;gt;&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:Alignment_finden.png&amp;diff=132</id>
		<title>File:Alignment finden.png</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:Alignment_finden.png&amp;diff=132"/>
		<updated>2019-06-02T18:50:44Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: Hier wird an einem Beispiel gezeigt wie man in einer berechneten Matrix das Alignment findet.&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== Summary ==&lt;br /&gt;
Hier wird an einem Beispiel gezeigt wie man in einer berechneten Matrix das Alignment findet.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:Matrix_berechnen.png&amp;diff=131</id>
		<title>File:Matrix berechnen.png</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:Matrix_berechnen.png&amp;diff=131"/>
		<updated>2019-06-02T18:49:50Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: Hier sieht man an einem Beispiel wie man die Zellen einer Matrix des Smith-Waterman Algorithmus berechnen kann.&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== Summary ==&lt;br /&gt;
Hier sieht man an einem Beispiel wie man die Zellen einer Matrix des Smith-Waterman Algorithmus berechnen kann.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=126</id>
		<title>3.Smith-Waterman</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=126"/>
		<updated>2019-05-28T11:14:28Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war zum Donnerstag, den 02.05.2019 abzugeben. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: Definitionen ==&lt;br /&gt;
&lt;br /&gt;
a.: Definiere die folgenden Begriffe:&lt;br /&gt;
&lt;br /&gt;
* Alignment: Methode, bei der verschiedene Sequenzen optimal aufeinander ausgerichtet werden um übereinstimmende Teile untereinander sichtbar zu machen. Die kann entweder zwischen einem Read und einem Referenzgenom passieren oder zwischen zwei Reads im Zuge der RNAseq. &lt;br /&gt;
&lt;br /&gt;
* Dynamic Programming: Algorithmus zum Lösen von informatischen Problemen. Dabei wird ein Problem in Teilprobleme unterteilt, die nach und nach gelöst und gespeichert werden. Die kann auf Assemblies angewandt werden, indem man die reads nach und nach aneinanderfügt, anstatt dies in einem einzigen Programmschritt durchzuführen. Dabei wird stets ein Paar mit maximalem Match verbunden bevor das nächste Paar verwendet wird. &lt;br /&gt;
&lt;br /&gt;
* lokales Alignment: Alignment von zwei (Teil)-Sequenzen, wird mit dem Smith-Waterman-Algorithmus durchgeführt. Zur Berechnung müssen die Teilsequenzen gefunden werden, die den höchsten Alignmentscore besitzen. &lt;br /&gt;
&lt;br /&gt;
* Gap penalty: Abzug im Alignmentscore, wenn bei einem lokalen Alignment eine Base ungepaart ist (z.B. &lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 AATTGGCC&lt;br /&gt;
 TT-AACCGG&lt;br /&gt;
|}&lt;br /&gt;
hätte an Position 3 ein Gap und somit eine Gap penalty.)&lt;br /&gt;
&lt;br /&gt;
* Fasta-Format: textbasiertes Format in dem DNA, RNA und Proteinsequenzen gespeichert werden. Besteht aus 2-3 Zeilen pro Sequenz. die erste Zeile besteht aus einem Header der mit &amp;gt; beginnt und Namen und Beschreibung der Sequenz beinhaltet, danach folgt eine optinale Kommentarzeile, gefolgt von der Zeile mit der eigentlichen Sequenz. Mehrere Sequenzen können in einer Datei gespeichert werden, wenn man einen neuen Header für jede Sequenz beginnt. &lt;br /&gt;
&lt;br /&gt;
Beispiel:&lt;br /&gt;
&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 &amp;gt;Probesequenz_1_20190502_ABC&lt;br /&gt;
 AATTAAGCATAAATAGGCTAGCTAAGCTAGCCA&lt;br /&gt;
 &amp;gt;Probesequenz_2_20190502_ABC&lt;br /&gt;
 GGGATTCGACCGATCGAAGCTTAGCGAACGAGA&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
* Algorithmus: Handlungsanweisung zur Lösung eines Problems, besteht aus definierten, sequentiellen Abschnitten.&lt;br /&gt;
&lt;br /&gt;
b.: Welche grundsätzlichen Arten von Alignment gibt es?&lt;br /&gt;
&lt;br /&gt;
Lokales Alignment: Alignment von unterschiedlichen (Teil)-Sequenzen, normalerweise unter der Verwendung des Smith-Waterman-Algorithmuses. Wird mit längeren Teilsequenzen immer aufwändiger.&lt;br /&gt;
&lt;br /&gt;
Globales Alignment: Volle Sequenzen werden miteinander alignt. Wird oftmals mit dem Needleman-Wunsch Algorithmus bearbeitet.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=125</id>
		<title>3.Smith-Waterman</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=125"/>
		<updated>2019-05-28T11:08:22Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war zum Donnerstag, den 02.05.2019 abzugeben. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: Definitionen ==&lt;br /&gt;
&lt;br /&gt;
a.: Definiere die folgenden Begriffe:&lt;br /&gt;
&lt;br /&gt;
* Alignment: Methode, bei der verschiedene Sequenzen optimal aufeinander ausgerichtet werden um übereinstimmende Teile untereinander sichtbar zu machen. Die kann entweder zwischen einem Read und einem Referenzgenom passieren oder zwischen zwei Reads im Zuge der RNAseq. &lt;br /&gt;
&lt;br /&gt;
* Dynamic Programming: Algorithmus zum Lösen von informatischen Problemen. Dabei wird ein Problem in Teilprobleme unterteilt, die nach und nach gelöst und gespeichert werden. Die kann auf Assemblies angewandt werden, indem man die reads nach und nach aneinanderfügt, anstatt dies in einem einzigen Programmschritt durchzuführen. Dabei wird stets ein Paar mit maximalem Match verbunden bevor das nächste Paar verwendet wird. &lt;br /&gt;
&lt;br /&gt;
* lokales Alignment: Alignment von zwei (Teil)-Sequenzen, wird mit dem Smith-Waterman-Algorithmus durchgeführt. Zur Berechnung müssen die Teilsequenzen gefunden werden, die den höchsten Alignmentscore besitzen. &lt;br /&gt;
&lt;br /&gt;
* Gap penalty: Abzug im Alignmentscore, wenn bei einem lokalen Alignment eine Base ungepaart ist (z.B. &lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 AATTGGCC&lt;br /&gt;
 TT-AACCGG&lt;br /&gt;
|}&lt;br /&gt;
hätte an Position 3 ein Gap und somit eine Gap penalty.)&lt;br /&gt;
&lt;br /&gt;
* Fasta-Format: textbasiertes Format in dem DNA, RNA und Proteinsequenzen gespeichert werden. Besteht aus 2-3 Zeilen pro Sequenz. die erste Zeile besteht aus einem Header der mit &amp;gt; beginnt und Namen und Beschreibung der Sequenz beinhaltet, danach folgt eine optinale Kommentarzeile, gefolgt von der Zeile mit der eigentlichen Sequenz. Mehrere Sequenzen können in einer Datei gespeichert werden, wenn man einen neuen Header für jede Sequenz beginnt. &lt;br /&gt;
&lt;br /&gt;
Beispiel:&lt;br /&gt;
&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 &amp;gt;Probesequenz_1_20190502_ABC&lt;br /&gt;
 AATTAAGCATAAATAGGCTAGCTAAGCTAGCCA&lt;br /&gt;
 &amp;gt;Probesequenz_2_20190502_ABC&lt;br /&gt;
 GGGATTCGACCGATCGAAGCTTAGCGAACGAGA&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
* Algorithmus: Handlungsanweisung zur Lösung eines Problems, besteht aus definierten, sequentiellen Abschnitten.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=124</id>
		<title>3.Smith-Waterman</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Smith-Waterman&amp;diff=124"/>
		<updated>2019-05-28T11:05:53Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: Created page with &amp;quot;Diese Übung war zum Donnerstag, den 02.05.2019 abzugeben.   == Aufgabe 1: Definitionen ==  a.: Definiere die folgenden Begriffe:  * Alignment: Methode, bei der verschiedene S...&amp;quot;&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Diese Übung war zum Donnerstag, den 02.05.2019 abzugeben. &lt;br /&gt;
&lt;br /&gt;
== Aufgabe 1: Definitionen ==&lt;br /&gt;
&lt;br /&gt;
a.: Definiere die folgenden Begriffe:&lt;br /&gt;
&lt;br /&gt;
* Alignment: Methode, bei der verschiedene Sequenzen optimal aufeinander ausgerichtet werden um übereinstimmende Teile untereinander sichtbar zu machen. Die kann entweder zwischen einem Read und einem Referenzgenom passieren oder zwischen zwei Reads im Zuge der RNAseq. &lt;br /&gt;
&lt;br /&gt;
* Dynamic Programming: Algorithmus zum Lösen von informatischen Problemen. Dabei wird ein Problem in Teilprobleme unterteilt, die nach und nach gelöst und gespeichert werden. Die kann auf Assemblies angewandt werden, indem man die reads nach und nach aneinanderfügt, anstatt dies in einem einzigen Programmschritt durchzuführen. Dabei wird stets ein Paar mit maximalem Match verbunden bevor das nächste Paar verwendet wird. &lt;br /&gt;
&lt;br /&gt;
* lokales Alignment: Alignment von zwei (Teil)-Sequenzen, wird mit dem Smith-Waterman-Algorithmus durchgeführt. Zur Berechnung müssen die Teilsequenzen gefunden werden, die den höchsten Alignmentscore besitzen. &lt;br /&gt;
&lt;br /&gt;
* Gap penalty: Abzug im Alignmentscore, wenn bei einem lokalen Alignment eine Base ungepaart ist (z.B. &lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|&lt;br /&gt;
 AATTGGCC&lt;br /&gt;
 TT-AACCGG&lt;br /&gt;
|}&lt;br /&gt;
hätte an Position 3 ein Gap und somit eine Gap penalty.)&lt;br /&gt;
&lt;br /&gt;
* Fasta-Format: textbasiertes Format in dem DNA, RNA und Proteinsequenzen gespeichert werden. Besteht aus 2-3 Zeilen pro Sequenz. die erste Zeile besteht aus einem Header der mit &amp;gt; beginnt und Namen und Beschreibung der Sequenz beinhaltet, danach folgt eine optinale Kommentarzeile, gefolgt von der Zeile mit der eigentlichen Sequenz. Mehrere Sequenzen können in einer Datei gespeichert werden, wenn man einen neuen Header für jede Sequenz beginnt. &lt;br /&gt;
&lt;br /&gt;
* Algorithmus: Handlungsanweisung zur Lösung eines Problems, besteht aus definierten, sequentiellen Abschnitten.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=User:Patrick_Melichar&amp;diff=76</id>
		<title>User:Patrick Melichar</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=User:Patrick_Melichar&amp;diff=76"/>
		<updated>2019-05-08T17:13:17Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: Created page with &amp;quot;HiWi für das Skriptwiki-Projekt  Bei Problemen und Fragen, schreibt mir unter patrick.melichar@tu-braunschweig.de oder nutzt die &amp;quot;Talk&amp;quot;-Pages der Einträge.&amp;quot;&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;HiWi für das Skriptwiki-Projekt&lt;br /&gt;
&lt;br /&gt;
Bei Problemen und Fragen, schreibt mir unter patrick.melichar@tu-braunschweig.de oder nutzt die &amp;quot;Talk&amp;quot;-Pages der Einträge.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2.Transkriptom_RNA_Seq_1&amp;diff=75</id>
		<title>2.Transkriptom RNA Seq 1</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2.Transkriptom_RNA_Seq_1&amp;diff=75"/>
		<updated>2019-05-08T17:10:36Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: /* b. Welche Generatioen der Sequenzierung werden unterschieden? */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== Aufgabe 1: Definitionen ==&lt;br /&gt;
&lt;br /&gt;
reads: sequenzierte cDNA-Fragmente, die assembliert werden müssen. &lt;br /&gt;
&lt;br /&gt;
assembly: Prozess, dei dem die reads angeglichen (alignt) und verbunden werden. Dies kann entweder mit Referenzgenom oder ohne (''de novo'') geschehen&lt;br /&gt;
&lt;br /&gt;
contig: Satz sich überlappender reads, die von der selben Quelle stammen.&lt;br /&gt;
&lt;br /&gt;
[[File:PET contig scaffold.png|thumb|reads, contigs und Scaffold]]&lt;br /&gt;
&lt;br /&gt;
coverage: Summe an reads, die ein bestimmtes Nukleotid in der Sequenz beinhalten. Für einen Sequenzabschnit wird es über folgende Formel berechnet:  &amp;lt;math&amp;gt; C= \frac{N*L}{G} &amp;lt;/math&amp;gt;, wobei N die Anzahl der Reads ist, L die durchschnittliche Länge der reads und G die Länge des Referenzgenoms.&lt;br /&gt;
&lt;br /&gt;
library: Sammlung von in Mikroorganismen gespeicherten DNA-Fragmenten, die bei Bedarf wieder extrahiert werden können.&lt;br /&gt;
&lt;br /&gt;
NGS: Next-Generation-Sequencing, Sammelbegriff für neuartige Sequenziermethoden, die einen höhere Durchsatz besitzen als die klassische Sangermethode. Dies ist vorallem dadurch gegeben, dass viele Problem parallel berarbeitet werden können.&lt;br /&gt;
&lt;br /&gt;
Scaffold: Einheit von mehreren Contigs, welche bekannte Länge an Basenpaaren voneinander entfernt sind. Die Sequenz zwischen den contigs kann dabei unbekannt sein.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2: Illumina Sequenzierung ==&lt;br /&gt;
&lt;br /&gt;
===== a. Die Anwendung von NGS hat in den letzten Jahren stark zugenommen, Welche möglichen Einsatzgebiete gibt es? =====&lt;br /&gt;
&lt;br /&gt;
NGS kann für Zwecke wie RNA Sequenzierung (RNAseq, Exome sequencing) und DNA Sequenzierung (Whole genome equencing, methylation sequencing, Protein-DNA Interaktionssequenzierung) verwendet werden&lt;br /&gt;
&lt;br /&gt;
===== b. Welche Generationen der Sequenzierung werden unterschieden? =====&lt;br /&gt;
&lt;br /&gt;
1st Gen.: Sangersequenzierung&lt;br /&gt;
&lt;br /&gt;
2nd Gen.: Illumina, SOLiD, Ion torrent, Pyrosequencing&lt;br /&gt;
&lt;br /&gt;
3rd Gen.: Nanopore, SMRT seq&lt;br /&gt;
&lt;br /&gt;
===== d. Wie ist das Dateiformat FastQ aufgebaut? =====&lt;br /&gt;
1. Zeile: @ gefolgt von einem Sequenzidentifier,&lt;br /&gt;
&lt;br /&gt;
2. Zeile ist die Sequenz in Buchstabencode&lt;br /&gt;
&lt;br /&gt;
3. Zeile beginnt mit einem + und kann weitere Deskriptoren beinhalten&lt;br /&gt;
&lt;br /&gt;
4. Zeile kodiert die Qualität der Sequenz in Zeile 4 in ASCII&lt;br /&gt;
&lt;br /&gt;
Beispiel:&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
@SEQ_ID&lt;br /&gt;
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT&lt;br /&gt;
+&lt;br /&gt;
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF&amp;gt;&amp;gt;&amp;gt;&amp;gt;&amp;gt;&amp;gt;CCCCCCC65&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 3 ==&lt;br /&gt;
&lt;br /&gt;
===== a. Wozu wird ein Assembly in Hinblick auf NGS benötigt? =====&lt;br /&gt;
&lt;br /&gt;
Da die NGS alle auf Shotgunsequenzierung beruhen, werden nur kleine&lt;br /&gt;
Fragmente sequenziert. Eine Assembly ist nötig um aus den gewonnen&lt;br /&gt;
Sequenzierdaten tatsächlich nutzbare Daten über das Genom/Transkriptom&lt;br /&gt;
zu gewinnen, indem die Sequenzen der ursprünglichen DNA/mRNA wieder&lt;br /&gt;
zusammengesetzt werden. &lt;br /&gt;
&lt;br /&gt;
===== b. Welche grundsätzlichen Assemblierungsmethoden gibt es? =====&lt;br /&gt;
de-novo assembly wird genutzt um ohne Template die reads zu verknüpfen.&lt;br /&gt;
&lt;br /&gt;
mapping assembly wird genutzt wenn man eine existierende Sequenz (Referenzgenom) hat, an&lt;br /&gt;
die man die reads anlegen und vergleichen kann.&lt;br /&gt;
&lt;br /&gt;
===== c. Beschreibe den Ablauf eines Assemblys. Welche Probleme können auftreten? =====&lt;br /&gt;
&lt;br /&gt;
===== d. Was ist ein Alignment und wofür wird es verwendet? =====&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=RNAseq&amp;diff=74</id>
		<title>RNAseq</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=RNAseq&amp;diff=74"/>
		<updated>2019-05-08T17:10:09Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: /* Durchführung */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;RNAseq ist eine Methode zur Analyse von Transkriptomen. Hierbei wird die Sequenz aller in der Probe vorhandenen mRNA Moleküle ermittelt.&lt;br /&gt;
&lt;br /&gt;
== Durchführung ==&lt;br /&gt;
&lt;br /&gt;
Nach der Isolierung der RNA aus der Probe muss die RNA fragmentiert werden und mit dem Enzym reverser Transkriptase in cDNA übersetzt werden. Dies liegt daran, dass RNA von sich aus weitaus instabiler ist und RNasen in vielen Umgegungen natürlich vorkommen und die RNA abbauen können. &lt;br /&gt;
&lt;br /&gt;
Im zweiten Schritt wird die cDNA mit Realtime PCR amplifiziert, damit man eine bekannt Menge an cDNA in den Sequencer geben kann.&lt;br /&gt;
&lt;br /&gt;
Die fragmentierte cDNA wird anschließend mit Next-Generation-Sequencing Methoden (z.B. [[Illumina]]) sequenziert. Die Fragmentsequenzen (reads) müssen anschließend mit bioinformatische Methoden wieder zusammengefügt werden ([[Assembly]]) um Aufschluss auf das Transkriptom zu erhalten.&lt;br /&gt;
&lt;br /&gt;
== Vorteile der RNAseq ==&lt;br /&gt;
&lt;br /&gt;
Vorteilhaft an der RNA-seq gegenüber [[Microarrays|Microarray]] ist, dass die Auflösung auf die Base genau ist. Da man die genaue Sequenz besitzt kann man deshalb einfach zwischen verschieden Mutanten und Splicevarianten unterscheiden. Außerdem besitzt diese Methode viel weniger Hintergrundrauschen und hat keine Messobergrenze, das heisst auch besonders hohe Expressionslevel können noch akkurat erfasst werden. Außerdem ist die benötigte RNA-Menge weitaus weniger im Vergleich zu Microarrays.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=1._Datenbanken&amp;diff=73</id>
		<title>1. Datenbanken</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=1._Datenbanken&amp;diff=73"/>
		<updated>2019-05-08T17:08:32Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: /* a. Vergleich von Microarray und RNASeq */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== Aufgabe1: RNASeq vs. Microarray ==&lt;br /&gt;
=== a. Vergleich von Microarray und RNASeq === &lt;br /&gt;
Erläutern Sie die Gemeinsamkeiten und Unterschiede von [[RNAseq|RNASeq]] und [[Microarrays|Microarray]].&amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|+ style=&amp;quot;padding-bottom:1em&amp;quot;| Vergleich von Microarray und RNASeq&lt;br /&gt;
|- class=&amp;quot;hintergrundfarbe6&amp;quot;&lt;br /&gt;
! style=&amp;quot;width:20%&amp;quot;| Eigenschaft !! style=&amp;quot;width:30%&amp;quot;| Microarray !! style=&amp;quot;width:30%&amp;quot;| RNASeq &lt;br /&gt;
|-&lt;br /&gt;
| Kosten  ||colspan=&amp;quot;3&amp;quot; style=&amp;quot;text-align:center&amp;quot;| in etwa gleich&lt;br /&gt;
|-&lt;br /&gt;
| Methode  ||colspan=&amp;quot;3&amp;quot; style=&amp;quot;text-align:center&amp;quot;| Transcriptomics, Analyse von RNA &amp;lt;br&amp;gt; Vorgang bis zur Herstellung der cDNA gleich&lt;br /&gt;
|-&lt;br /&gt;
| Prinzip || Hybridisierung || Hochdurchsatz Sequenzierung&lt;br /&gt;
|-&lt;br /&gt;
| Auflösung || einige bis 100 bp || Einzelbase&lt;br /&gt;
|-&lt;br /&gt;
| Hintergrundrauschen || hoch || gering&lt;br /&gt;
|-&lt;br /&gt;
| Dynamischer Bereich || bis 100fach || &amp;gt; 8000fach&lt;br /&gt;
|-&lt;br /&gt;
| Isoformen || teilweise || ja&lt;br /&gt;
|- &lt;br /&gt;
| Benötigte RNA-Menge || hoch || gering&lt;br /&gt;
|- &lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
=== b. Funktionsweise von Microarray und RNASeq === &lt;br /&gt;
Auf welchem Prinzip beruht die RNA-Sequenzierung, auf welchem das Microarray? &amp;lt;br&amp;gt;&lt;br /&gt;
Erklären Sie kurz die Funktionsweise beider Methoden. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Funktionsweise RNASeq:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ Sequenz-basierte Methode &amp;lt;br&amp;gt;&lt;br /&gt;
1. Isolierung der Zellen aus den zu vergleichenden Zelllinien. &amp;lt;br&amp;gt;&lt;br /&gt;
2. Isolierung der mRNA. &amp;lt;br&amp;gt;&lt;br /&gt;
3. Herstellung der cDNA mit Hilfe der reversen Transkriptase. &amp;lt;br&amp;gt;&lt;br /&gt;
4. Fragmentierung der cDNA, Ligation an Adapter und Amplifikation mit PCR. &amp;lt;br&amp;gt;&lt;br /&gt;
5. Sequenzierung der Fragmente. &amp;lt;br&amp;gt;&lt;br /&gt;
6. Vergleich der erhaltenen Sequenzen mit dem Referenzgenom, zur Analyse der Expression. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Funktionsweise Microarray:''' &amp;lt;br&amp;gt;&lt;br /&gt;
→ Hybridisierungs-basierte Methode &amp;lt;br&amp;gt;&lt;br /&gt;
Schritt 1 bis 3, siehe RNASeq. &amp;lt;br&amp;gt;&lt;br /&gt;
4. Markierung der zu vergleichenden cDNAs mit unterschiedlichen Fluoreszenzfarbstoffen. &amp;lt;br&amp;gt;&lt;br /&gt;
5. Hybridisierung der markierten DNA auf Microarray mit bekannten Transkript-Proben (komplementär). &amp;lt;br&amp;gt;&lt;br /&gt;
6. Bei erfolgreicher Hybridisierung entsteht Fluoreszent, die detektiert wird. Durch die unterschiedliche Markierung (Farbe), die Position auf dem Chip und die Stärke der Fluoreszenz kann die Expression der zu vergleichenden Zellen analysiert werden. &amp;lt;br&amp;gt;&lt;br /&gt;
== Aufgabe 2: Datenbanken ==&lt;br /&gt;
Nutzen Sie für die Lösung dieser Aufgabe die Datenbank [https://www.ebi.ac.uk/gxa/home Expression Atlas] des EBI.&lt;br /&gt;
=== a. Recherche Log&amp;lt;sub&amp;gt;2&amp;lt;/sub&amp;gt;-fold change===&lt;br /&gt;
Suchen Sie die Analyse der NLRC4 Inflammasom Mutation im Menschen. Geben Sie die 3 Gene an, welche mit einem Log&amp;lt;sub&amp;gt;2&amp;lt;/sub&amp;gt;-fold change von über 4 vor der Anakinra Behandlung im Vergleich zum normalen Phänotyp hochreguliert sind. Geben Sie außerdem die dazugehörigen, angepassten p-Werte an. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|+ style=&amp;quot;padding-bottom:1em&amp;quot;| Log&amp;lt;sub&amp;gt;2&amp;lt;/sub&amp;gt;-fold change von über 4 bei der Analyse der NLRC4 Inflammasom Mutation im Menschen&lt;br /&gt;
|- class=&amp;quot;hintergrundfarbe6&amp;quot; &lt;br /&gt;
! style=&amp;quot;width:15%&amp;quot;| Gen !! style=&amp;quot;width:20%&amp;quot;| Log&amp;lt;sub&amp;gt;2&amp;lt;/sub&amp;gt;-fold change !! style=&amp;quot;width:20%&amp;quot;| ''p''-value &lt;br /&gt;
|-&lt;br /&gt;
|style=&amp;quot;text-align:center&amp;quot;| UNC93B3 || style=&amp;quot;text-align:center&amp;quot;| 4,9 || style=&amp;quot;text-align:center&amp;quot;| 1,2097*10&amp;lt;sup&amp;gt;-12&amp;lt;/sup&amp;gt;&lt;br /&gt;
|-&lt;br /&gt;
|style=&amp;quot;text-align:center&amp;quot;| C4BPA ||style=&amp;quot;text-align:center&amp;quot;| 4,3 || style=&amp;quot;text-align:center&amp;quot;| 1,1289*10&amp;lt;sup&amp;gt;-19&amp;lt;/sup&amp;gt;&lt;br /&gt;
|-&lt;br /&gt;
|style=&amp;quot;text-align:center&amp;quot;| MTRNR2L8 || style=&amp;quot;text-align:center&amp;quot;| 5,7 || style=&amp;quot;text-align:center&amp;quot;| 1,6487*10&amp;lt;sup&amp;gt;-42&amp;lt;/sup&amp;gt;&lt;br /&gt;
|}&lt;br /&gt;
'''Lösungsweg:''' &amp;lt;br&amp;gt;&lt;br /&gt;
# Im [https://www.ebi.ac.uk/gxa/home Expression Atlas] den Reiter 'Browse Experiments' öffnen.&lt;br /&gt;
# Suche mit den gegebenen Informationen durchführen, das Ergebnis ist dann das Experiment mit dem Titel 'An activating NLRC4 inflammasome mutation causes autoinflammation with recurrent macrophage activation syndrome'.&lt;br /&gt;
# Die Ergebnisse dieses Experimentes liefern auch einen Vergleich der Genexpressionen von 'NLRC4-Macrophage Activation Syndrome; prior to anakinra treatment' vs. 'normal'.&lt;br /&gt;
&lt;br /&gt;
=== b. Expressionslevel des Gens LDHA ===&lt;br /&gt;
Geben Sie die Expressionslevel (in TPM) des Gens LDHA aus dem Experiment „Expression data from 7 Human Melanomas“ an. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|+ style=&amp;quot;padding-bottom:1em&amp;quot;| Expressionslevel des Gens LDHA aus dem Experiment 'Expression data from 7 Human Melanomas'&lt;br /&gt;
|- class=&amp;quot;hintergrundfarbe6&amp;quot; &lt;br /&gt;
! style=&amp;quot;width:20%&amp;quot;| Zelllinie !! style=&amp;quot;width:20%&amp;quot;| Expressionslevel [TPM]  &lt;br /&gt;
|-&lt;br /&gt;
|style=&amp;quot;text-align:center&amp;quot;| A2058 || style=&amp;quot;text-align:center&amp;quot;| 1085&lt;br /&gt;
|-&lt;br /&gt;
| style=&amp;quot;text-align:center&amp;quot;| A375 || style=&amp;quot;text-align:center&amp;quot;| 729&lt;br /&gt;
|-&lt;br /&gt;
|style=&amp;quot;text-align:center&amp;quot;| C32 ||style=&amp;quot;text-align:center&amp;quot;| 1192&lt;br /&gt;
|-&lt;br /&gt;
| style=&amp;quot;text-align:center&amp;quot;| Malme3M || style=&amp;quot;text-align:center&amp;quot;| 295&lt;br /&gt;
|-&lt;br /&gt;
|style=&amp;quot;text-align:center&amp;quot;| SKMEL5 || style=&amp;quot;text-align:center&amp;quot;| 568&lt;br /&gt;
|-&lt;br /&gt;
|style=&amp;quot;text-align:center&amp;quot;| SKMEL28 || style=&amp;quot;text-align:center&amp;quot;| 1677&lt;br /&gt;
|-&lt;br /&gt;
| style=&amp;quot;text-align:center&amp;quot;| WM2664 || style=&amp;quot;text-align:center&amp;quot;| 789&lt;br /&gt;
|}&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
# In [https://www.ebi.ac.uk/gxa/experiments Experiments in Expression Atlas] nach dem Experiment 'Expression data from 7 Human Melanomas' suchen.&lt;br /&gt;
# In dem Experiment nach den Ergebnissen des Gens 'LDHA' suchen.&lt;br /&gt;
=== c. Datenbankrecherche zu 'HER2 Positive Breast Carcinoma' ===&lt;br /&gt;
Bei der Untersuchung von 17 Brustkrebsproben (HER2 Positive Breast Carcinoma) aus drei verschiedenen Subtypen zeigte sich im Vergleich zu normalen menschlichen Brustzellen welcher Log2-fold change des Gens LDHA? Geben Sie grob Ihr Vorgehen wieder, mit dem Sie das Ergebnis in der Datenbank gefunden haben.&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
# [https://www.ebi.ac.uk/gxa/home Expression Atlas] – Home, Suche&lt;br /&gt;
# Gene/Gene properties → ‚HER2‘ &amp;amp; ‚LDHA‘ &amp;lt;br /&amp;gt; Species → ‚Homo sapiens‘ &amp;lt;br /&amp;gt; Biological conditions → ‚positive breast carcinoma‘&lt;br /&gt;
# Im Suchergebnis den Reiter ‚differential expression‘ öffnen&lt;br /&gt;
# Ergebnis:&lt;br /&gt;
#* Name des Experiments: ‚RNA-Seq. Of 17 breast tumor samples of three different subtypes and normal human breast organoids samples‘&lt;br /&gt;
#* Vergleich: ‚HER2 Positive Breast Carcinoma, breast carcinoma‘ vs. ‚normal‘&lt;br /&gt;
#* Log&amp;lt;sub&amp;gt;2&amp;lt;/sub&amp;gt;-fold change des Gens LDHA: - 2,2 (''p''-value: 8,1727*10&amp;lt;sup&amp;gt;-7&amp;lt;/sup&amp;gt;)&lt;br /&gt;
&lt;br /&gt;
=== d. ENSG Nummer LDHA &amp;amp; Expression im Herzen ===&lt;br /&gt;
Welche Ensembl gene (ENSG) Nummer hat LDHA? Welches Expressionslevel weist LDHA laut der Human Proteome Map im Herzen von Menschen im adulten bzw. fetalen Stadium auf? In welchem Stadium ist LDHA höher exprimiert? &amp;lt;br&amp;gt;&lt;br /&gt;
LDHA → ENSG00000134333 &amp;lt;br&amp;gt;&lt;br /&gt;
Expressionslevel von LDHA im Herzen (Human Proteome Map) &amp;lt;br&amp;gt;&lt;br /&gt;
* adult: 0,0004281 (low)&lt;br /&gt;
* fetal: 0,0014373 (medium) &amp;lt;br&amp;gt;&lt;br /&gt;
Im fetalen Stadium ist LDHA höher exprimiert, als im adulten Stadium.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2.Transkriptom_RNA_Seq_1&amp;diff=72</id>
		<title>2.Transkriptom RNA Seq 1</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2.Transkriptom_RNA_Seq_1&amp;diff=72"/>
		<updated>2019-05-08T17:06:37Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: /* b. Welche grundsätzlichen Assemblierungsmethoden gibt es? */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== Aufgabe 1: Definitionen ==&lt;br /&gt;
&lt;br /&gt;
reads: sequenzierte cDNA-Fragmente, die assembliert werden müssen. &lt;br /&gt;
&lt;br /&gt;
assembly: Prozess, dei dem die reads angeglichen (alignt) und verbunden werden. Dies kann entweder mit Referenzgenom oder ohne (''de novo'') geschehen&lt;br /&gt;
&lt;br /&gt;
contig: Satz sich überlappender reads, die von der selben Quelle stammen.&lt;br /&gt;
&lt;br /&gt;
[[File:PET contig scaffold.png|thumb|reads, contigs und Scaffold]]&lt;br /&gt;
&lt;br /&gt;
coverage: Summe an reads, die ein bestimmtes Nukleotid in der Sequenz beinhalten. Für einen Sequenzabschnit wird es über folgende Formel berechnet:  &amp;lt;math&amp;gt; C= \frac{N*L}{G} &amp;lt;/math&amp;gt;, wobei N die Anzahl der Reads ist, L die durchschnittliche Länge der reads und G die Länge des Referenzgenoms.&lt;br /&gt;
&lt;br /&gt;
library: Sammlung von in Mikroorganismen gespeicherten DNA-Fragmenten, die bei Bedarf wieder extrahiert werden können.&lt;br /&gt;
&lt;br /&gt;
NGS: Next-Generation-Sequencing, Sammelbegriff für neuartige Sequenziermethoden, die einen höhere Durchsatz besitzen als die klassische Sangermethode. Dies ist vorallem dadurch gegeben, dass viele Problem parallel berarbeitet werden können.&lt;br /&gt;
&lt;br /&gt;
Scaffold: Einheit von mehreren Contigs, welche bekannte Länge an Basenpaaren voneinander entfernt sind. Die Sequenz zwischen den contigs kann dabei unbekannt sein.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2: Illumina Sequenzierung ==&lt;br /&gt;
&lt;br /&gt;
===== a. Die Anwendung von NGS hat in den letzten Jahren stark zugenommen, Welche möglichen Einsatzgebiete gibt es? =====&lt;br /&gt;
&lt;br /&gt;
NGS kann für Zwecke wie RNA Sequenzierung (RNAseq, Exome sequencing) und DNA Sequenzierung (Whole genome equencing, methylation sequencing, Protein-DNA Interaktionssequenzierung) verwendet werden&lt;br /&gt;
&lt;br /&gt;
===== b. Welche Generatioen der Sequenzierung werden unterschieden? =====&lt;br /&gt;
&lt;br /&gt;
1st Gen.: Sangersequenzierung&lt;br /&gt;
&lt;br /&gt;
2nd Gen.: Illumina, SOLiD, Ion torrent, Pyrosequencing&lt;br /&gt;
&lt;br /&gt;
3rd Gen.: Nanopore, SMRT seq&lt;br /&gt;
&lt;br /&gt;
===== d. Wie ist das Dateiformat FastQ aufgebaut? =====&lt;br /&gt;
1. Zeile: @ gefolgt von einem Sequenzidentifier,&lt;br /&gt;
&lt;br /&gt;
2. Zeile ist die Sequenz in Buchstabencode&lt;br /&gt;
&lt;br /&gt;
3. Zeile beginnt mit einem + und kann weitere Deskriptoren beinhalten&lt;br /&gt;
&lt;br /&gt;
4. Zeile kodiert die Qualität der Sequenz in Zeile 4 in ASCII&lt;br /&gt;
&lt;br /&gt;
Beispiel:&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
@SEQ_ID&lt;br /&gt;
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT&lt;br /&gt;
+&lt;br /&gt;
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF&amp;gt;&amp;gt;&amp;gt;&amp;gt;&amp;gt;&amp;gt;CCCCCCC65&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 3 ==&lt;br /&gt;
&lt;br /&gt;
===== a. Wozu wird ein Assembly in Hinblick auf NGS benötigt? =====&lt;br /&gt;
&lt;br /&gt;
Da die NGS alle auf Shotgunsequenzierung beruhen, werden nur kleine&lt;br /&gt;
Fragmente sequenziert. Eine Assembly ist nötig um aus den gewonnen&lt;br /&gt;
Sequenzierdaten tatsächlich nutzbare Daten über das Genom/Transkriptom&lt;br /&gt;
zu gewinnen, indem die Sequenzen der ursprünglichen DNA/mRNA wieder&lt;br /&gt;
zusammengesetzt werden. &lt;br /&gt;
&lt;br /&gt;
===== b. Welche grundsätzlichen Assemblierungsmethoden gibt es? =====&lt;br /&gt;
de-novo assembly wird genutzt um ohne Template die reads zu verknüpfen.&lt;br /&gt;
&lt;br /&gt;
mapping assembly wird genutzt wenn man eine existierende Sequenz (Referenzgenom) hat, an&lt;br /&gt;
die man die reads anlegen und vergleichen kann.&lt;br /&gt;
&lt;br /&gt;
===== c. Beschreibe den Ablauf eines Assemblys. Welche Probleme können auftreten? =====&lt;br /&gt;
&lt;br /&gt;
===== d. Was ist ein Alignment und wofür wird es verwendet? =====&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2.Transkriptom_RNA_Seq_1&amp;diff=71</id>
		<title>2.Transkriptom RNA Seq 1</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2.Transkriptom_RNA_Seq_1&amp;diff=71"/>
		<updated>2019-05-08T17:03:57Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: Created page with &amp;quot;== Aufgabe 1: Definitionen ==  reads: sequenzierte cDNA-Fragmente, die assembliert werden müssen.   assembly: Prozess, dei dem die reads angeglichen (alignt) und verbunden we...&amp;quot;&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== Aufgabe 1: Definitionen ==&lt;br /&gt;
&lt;br /&gt;
reads: sequenzierte cDNA-Fragmente, die assembliert werden müssen. &lt;br /&gt;
&lt;br /&gt;
assembly: Prozess, dei dem die reads angeglichen (alignt) und verbunden werden. Dies kann entweder mit Referenzgenom oder ohne (''de novo'') geschehen&lt;br /&gt;
&lt;br /&gt;
contig: Satz sich überlappender reads, die von der selben Quelle stammen.&lt;br /&gt;
&lt;br /&gt;
[[File:PET contig scaffold.png|thumb|reads, contigs und Scaffold]]&lt;br /&gt;
&lt;br /&gt;
coverage: Summe an reads, die ein bestimmtes Nukleotid in der Sequenz beinhalten. Für einen Sequenzabschnit wird es über folgende Formel berechnet:  &amp;lt;math&amp;gt; C= \frac{N*L}{G} &amp;lt;/math&amp;gt;, wobei N die Anzahl der Reads ist, L die durchschnittliche Länge der reads und G die Länge des Referenzgenoms.&lt;br /&gt;
&lt;br /&gt;
library: Sammlung von in Mikroorganismen gespeicherten DNA-Fragmenten, die bei Bedarf wieder extrahiert werden können.&lt;br /&gt;
&lt;br /&gt;
NGS: Next-Generation-Sequencing, Sammelbegriff für neuartige Sequenziermethoden, die einen höhere Durchsatz besitzen als die klassische Sangermethode. Dies ist vorallem dadurch gegeben, dass viele Problem parallel berarbeitet werden können.&lt;br /&gt;
&lt;br /&gt;
Scaffold: Einheit von mehreren Contigs, welche bekannte Länge an Basenpaaren voneinander entfernt sind. Die Sequenz zwischen den contigs kann dabei unbekannt sein.&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 2: Illumina Sequenzierung ==&lt;br /&gt;
&lt;br /&gt;
===== a. Die Anwendung von NGS hat in den letzten Jahren stark zugenommen, Welche möglichen Einsatzgebiete gibt es? =====&lt;br /&gt;
&lt;br /&gt;
NGS kann für Zwecke wie RNA Sequenzierung (RNAseq, Exome sequencing) und DNA Sequenzierung (Whole genome equencing, methylation sequencing, Protein-DNA Interaktionssequenzierung) verwendet werden&lt;br /&gt;
&lt;br /&gt;
===== b. Welche Generatioen der Sequenzierung werden unterschieden? =====&lt;br /&gt;
&lt;br /&gt;
1st Gen.: Sangersequenzierung&lt;br /&gt;
&lt;br /&gt;
2nd Gen.: Illumina, SOLiD, Ion torrent, Pyrosequencing&lt;br /&gt;
&lt;br /&gt;
3rd Gen.: Nanopore, SMRT seq&lt;br /&gt;
&lt;br /&gt;
===== d. Wie ist das Dateiformat FastQ aufgebaut? =====&lt;br /&gt;
1. Zeile: @ gefolgt von einem Sequenzidentifier,&lt;br /&gt;
&lt;br /&gt;
2. Zeile ist die Sequenz in Buchstabencode&lt;br /&gt;
&lt;br /&gt;
3. Zeile beginnt mit einem + und kann weitere Deskriptoren beinhalten&lt;br /&gt;
&lt;br /&gt;
4. Zeile kodiert die Qualität der Sequenz in Zeile 4 in ASCII&lt;br /&gt;
&lt;br /&gt;
Beispiel:&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
@SEQ_ID&lt;br /&gt;
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT&lt;br /&gt;
+&lt;br /&gt;
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF&amp;gt;&amp;gt;&amp;gt;&amp;gt;&amp;gt;&amp;gt;CCCCCCC65&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Aufgabe 3 ==&lt;br /&gt;
&lt;br /&gt;
===== a. Wozu wird ein Assembly in Hinblick auf NGS benötigt? =====&lt;br /&gt;
&lt;br /&gt;
Da die NGS alle auf Shotgunsequenzierung beruhen, werden nur kleine&lt;br /&gt;
Fragmente sequenziert. Eine Assembly ist nötig um aus den gewonnen&lt;br /&gt;
Sequenzierdaten tatsächlich nutzbare Daten über das Genom/Transkriptom&lt;br /&gt;
zu gewinnen, indem die Sequenzen der ursprünglichen DNA/mRNA wieder&lt;br /&gt;
zusammengesetzt werden. &lt;br /&gt;
&lt;br /&gt;
===== b. Welche grundsätzlichen Assemblierungsmethoden gibt es? =====&lt;br /&gt;
de-novo assembly wird genutzt um ohne Template die reads zu verknüpfen&lt;br /&gt;
&lt;br /&gt;
mapping assembly wird genutzt wenn man eine existierende Sequenz (Referenzgenom) hat, an&lt;br /&gt;
die man die reads anlegen und vergleichen kann&lt;br /&gt;
&lt;br /&gt;
===== c. Beschreibe den Ablauf eines Assemblys. Welche Probleme können auftreten? =====&lt;br /&gt;
&lt;br /&gt;
===== d. Was ist ein Alignment und wofür wird es verwendet? =====&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=70</id>
		<title>Glossar</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=70"/>
		<updated>2019-05-08T16:27:39Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: /* T */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== A ==&lt;br /&gt;
[[Alignment]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[Algorithmus]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[Assembly]] &lt;br /&gt;
== B ==&lt;br /&gt;
== C ==&lt;br /&gt;
[[Contig]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[Coverage]]&lt;br /&gt;
== D ==&lt;br /&gt;
[[Dynamic programming]]&lt;br /&gt;
== E ==&lt;br /&gt;
== F ==&lt;br /&gt;
[[FASTA-Format]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[FASTQ-Format]]&lt;br /&gt;
== G ==&lt;br /&gt;
[[gap penalty]]&lt;br /&gt;
== H ==&lt;br /&gt;
== I ==&lt;br /&gt;
[[Illumina]]&lt;br /&gt;
== J ==&lt;br /&gt;
== K ==&lt;br /&gt;
== L ==&lt;br /&gt;
[[Lander-Waterman-Modell]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[Library]]&lt;br /&gt;
== M ==&lt;br /&gt;
[[Microarrays]]&lt;br /&gt;
== N ==&lt;br /&gt;
[[NGS]]&lt;br /&gt;
== O ==&lt;br /&gt;
== P ==&lt;br /&gt;
== Q ==&lt;br /&gt;
== R ==&lt;br /&gt;
[[reads]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[RNASeq]]&lt;br /&gt;
== S ==&lt;br /&gt;
[[Scaffold]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[Smith-Waterman Algorithmus]]&lt;br /&gt;
== T ==&lt;br /&gt;
&lt;br /&gt;
[[Transkriptom]]&lt;br /&gt;
&lt;br /&gt;
== U ==&lt;br /&gt;
== V ==&lt;br /&gt;
== W ==&lt;br /&gt;
== X ==&lt;br /&gt;
== Y ==&lt;br /&gt;
== Z ==&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=1_Datenbanken&amp;diff=69</id>
		<title>1 Datenbanken</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=1_Datenbanken&amp;diff=69"/>
		<updated>2019-05-08T16:27:01Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: /* Biologisches Problem */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Auf dieser Seite sind die Themen zusammengeführt, die in Vorlesung 1 am 04.04.2019 behandelt wurden.&lt;br /&gt;
&lt;br /&gt;
== Biologisches Problem ==&lt;br /&gt;
&lt;br /&gt;
Das Biologische Problem wurde hierbei am Beispiel des [[Gen|Gens]] NAT8L, welches im Krebsmetabolismus eine Rolle spielt, bearbeitet. In diesem Beispiel kann man Tumorzellen charakterisieren indem man ihr NAT8L-Expressionslevel durch eine Tranksriptomanalyse herausfindet. Dafür kann man Methoden wie RNAseq oder Microarrays verwenden. Alternativ kann man in diesem Beispiel auch in einer Datenbank nach Expressionsdaten in Tumorgewebe dieser Art nachschlagen und somit das Experiment umgehen.&lt;br /&gt;
&lt;br /&gt;
== [[Microarrays]] ==&lt;br /&gt;
&lt;br /&gt;
Die Methode der Microarrays wurde als Möglichkeit vorgestellt [[Transkriptom|Transkriptome]] zu bestimmen.&lt;br /&gt;
&lt;br /&gt;
== [[RNAseq]] == &lt;br /&gt;
&lt;br /&gt;
Die RNAseq wurde als weitere Methode zur Transkriptomsbestimmung vorgestellt.&lt;br /&gt;
&lt;br /&gt;
== [[Übung 1|Vergleich RNAseq - Microarrays]] ==&lt;br /&gt;
&lt;br /&gt;
Vor- und Nachteile von Microarrays und RNAseq wurden gegeneinander abgewogen um die Methoden besser kennenzulernen.&lt;br /&gt;
&lt;br /&gt;
== [[Datenbanken]] ==&lt;br /&gt;
&lt;br /&gt;
Verschiedene Datenbanken wurden als Ressourcen vorgestellt, welche zum Vergleich und zur Vorhersage von Daten verwendet werden können.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=1_Datenbanken&amp;diff=68</id>
		<title>1 Datenbanken</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=1_Datenbanken&amp;diff=68"/>
		<updated>2019-05-08T16:22:19Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: /* Biologisches Problem */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Auf dieser Seite sind die Themen zusammengeführt, die in Vorlesung 1 am 04.04.2019 behandelt wurden.&lt;br /&gt;
&lt;br /&gt;
== Biologisches Problem ==&lt;br /&gt;
&lt;br /&gt;
Das Biologische Problem wurde hierbei am Beispiel des [[Gen|Gens]] NAT8L, welches im Krebsmetabolismus eine Rolle spielt, bearbeitet.&lt;br /&gt;
&lt;br /&gt;
== [[Microarrays]] ==&lt;br /&gt;
&lt;br /&gt;
Die Methode der Microarrays wurde als Möglichkeit vorgestellt [[Transkriptom|Transkriptome]] zu bestimmen.&lt;br /&gt;
&lt;br /&gt;
== [[RNAseq]] == &lt;br /&gt;
&lt;br /&gt;
Die RNAseq wurde als weitere Methode zur Transkriptomsbestimmung vorgestellt.&lt;br /&gt;
&lt;br /&gt;
== [[Übung 1|Vergleich RNAseq - Microarrays]] ==&lt;br /&gt;
&lt;br /&gt;
Vor- und Nachteile von Microarrays und RNAseq wurden gegeneinander abgewogen um die Methoden besser kennenzulernen.&lt;br /&gt;
&lt;br /&gt;
== [[Datenbanken]] ==&lt;br /&gt;
&lt;br /&gt;
Verschiedene Datenbanken wurden als Ressourcen vorgestellt, welche zum Vergleich und zur Vorhersage von Daten verwendet werden können.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Datenbanken&amp;diff=67</id>
		<title>Datenbanken</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Datenbanken&amp;diff=67"/>
		<updated>2019-05-08T16:19:36Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: Created page with &amp;quot;Datenbanken sind Systeme in denen Daten verwaltet und dauerhaft gespeichert werden. Im Zuge der Vorlesung wird zwischen primären und sekundären Datenbanken unterschieden:  p...&amp;quot;&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Datenbanken sind Systeme in denen Daten verwaltet und dauerhaft gespeichert werden. Im Zuge der Vorlesung wird zwischen primären und sekundären Datenbanken unterschieden:&lt;br /&gt;
&lt;br /&gt;
primäre Datenbanken enthalten Genom oder RNA-Sequenzen, als Beispiel wurden hierfür [https://www.ebi.ac.uk/arrayexpress/ EBI ArrayExpress] und [https://www.ncbi.nlm.nih.gov/geo/ NCBI GEO] angeführt. &lt;br /&gt;
&lt;br /&gt;
sekundäre Datenbanken enthalten abgeleitete  und verlinkten Daten, also gefilterte Datensätze, vergleichende oder vorhergesagt Daten. Ein Beispiel hierfür ist [https://www.uniprot.org/ UniProt] oder [https://www.ncbi.nlm.nih.gov/refseq/ NCBI RefSeq].&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=1_Datenbanken&amp;diff=66</id>
		<title>1 Datenbanken</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=1_Datenbanken&amp;diff=66"/>
		<updated>2019-05-08T16:09:30Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: /* Vergleich RNAseq - Microarrays */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Auf dieser Seite sind die Themen zusammengeführt, die in Vorlesung 1 am 04.04.2019 behandelt wurden.&lt;br /&gt;
&lt;br /&gt;
== [[Biologisches Problem|Biologisches Problem]] ==&lt;br /&gt;
&lt;br /&gt;
Das Biologische Problem wurde hierbei am Beispiel des [[Gen|Gens]] NAT8L, welches im Krebsmetabolismus eine Rolle spielt, bearbeitet. &lt;br /&gt;
&lt;br /&gt;
== [[Microarrays]] ==&lt;br /&gt;
&lt;br /&gt;
Die Methode der Microarrays wurde als Möglichkeit vorgestellt [[Transkriptom|Transkriptome]] zu bestimmen.&lt;br /&gt;
&lt;br /&gt;
== [[RNAseq]] == &lt;br /&gt;
&lt;br /&gt;
Die RNAseq wurde als weitere Methode zur Transkriptomsbestimmung vorgestellt.&lt;br /&gt;
&lt;br /&gt;
== [[Übung 1|Vergleich RNAseq - Microarrays]] ==&lt;br /&gt;
&lt;br /&gt;
Vor- und Nachteile von Microarrays und RNAseq wurden gegeneinander abgewogen um die Methoden besser kennenzulernen.&lt;br /&gt;
&lt;br /&gt;
== [[Datenbanken]] ==&lt;br /&gt;
&lt;br /&gt;
Verschiedene Datenbanken wurden als Ressourcen vorgestellt, welche zum Vergleich und zur Vorhersage von Daten verwendet werden können.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=RNAseq&amp;diff=65</id>
		<title>RNAseq</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=RNAseq&amp;diff=65"/>
		<updated>2019-05-08T16:08:12Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: Created page with &amp;quot;RNAseq ist eine Methode zur Analyse von Transkriptomen. Hierbei wird die Sequenz aller in der Probe vorhandenen mRNA Moleküle ermittelt.  == Durchführung ==  Nach der Isolie...&amp;quot;&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;RNAseq ist eine Methode zur Analyse von Transkriptomen. Hierbei wird die Sequenz aller in der Probe vorhandenen mRNA Moleküle ermittelt.&lt;br /&gt;
&lt;br /&gt;
== Durchführung ==&lt;br /&gt;
&lt;br /&gt;
Nach der Isolierung der RNA aus der Probe muss die RNA fragmentiert werden und mit dem Enzym reverser Transkriptase in cDNA übersetzt werden. Dies liegt daran, dass RNA von sich aus weitaus instabiler ist und RNasen in vielen Umgegungen natürlich vorkommen und die RNA abbauen können. &lt;br /&gt;
&lt;br /&gt;
Die fragmentierte cDNA wird anschließend mit Next-Generation-Sequencing Methoden (z.B. [[Illumina]]) sequenziert. Die Fragmentsequenzen (reads) müssen anschließend mit bioinformatische Methoden wieder zusammengefügt werden ([[Assembly]]) um Aufschluss auf das Transkriptom zu erhalten.&lt;br /&gt;
&lt;br /&gt;
== Vorteile der RNAseq ==&lt;br /&gt;
&lt;br /&gt;
Vorteilhaft an der RNA-seq gegenüber [[Microarrays|Microarray]] ist, dass die Auflösung auf die Base genau ist. Da man die genaue Sequenz besitzt kann man deshalb einfach zwischen verschieden Mutanten und Splicevarianten unterscheiden. Außerdem besitzt diese Methode viel weniger Hintergrundrauschen und hat keine Messobergrenze, das heisst auch besonders hohe Expressionslevel können noch akkurat erfasst werden. Außerdem ist die benötigte RNA-Menge weitaus weniger im Vergleich zu Microarrays.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=64</id>
		<title>Glossar</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=64"/>
		<updated>2019-05-06T18:28:49Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== A ==&lt;br /&gt;
[[Alignment]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[Algorithmus]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[Assembly]] &lt;br /&gt;
== B ==&lt;br /&gt;
== C ==&lt;br /&gt;
[[Contig]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[Coverage]]&lt;br /&gt;
== D ==&lt;br /&gt;
[[Dynamic programming]]&lt;br /&gt;
== E ==&lt;br /&gt;
== F ==&lt;br /&gt;
[[FASTA-Format]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[FASTQ-Format]]&lt;br /&gt;
== G ==&lt;br /&gt;
[[gap penalty]]&lt;br /&gt;
== H ==&lt;br /&gt;
== I ==&lt;br /&gt;
[[Illumina]]&lt;br /&gt;
== J ==&lt;br /&gt;
== K ==&lt;br /&gt;
== L ==&lt;br /&gt;
[[Lander-Waterman-Modell]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[Library]]&lt;br /&gt;
== M ==&lt;br /&gt;
[[Microarrays]]&lt;br /&gt;
== N ==&lt;br /&gt;
[[NGS]]&lt;br /&gt;
== O ==&lt;br /&gt;
== P ==&lt;br /&gt;
== Q ==&lt;br /&gt;
== R ==&lt;br /&gt;
[[reads]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[RNASeq]]&lt;br /&gt;
== S ==&lt;br /&gt;
[[Scaffold]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[Smith-Waterman Algorithmus]]&lt;br /&gt;
== T ==&lt;br /&gt;
== U ==&lt;br /&gt;
== V ==&lt;br /&gt;
== W ==&lt;br /&gt;
== X ==&lt;br /&gt;
== Y ==&lt;br /&gt;
== Z ==&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Microarrays&amp;diff=63</id>
		<title>Microarrays</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Microarrays&amp;diff=63"/>
		<updated>2019-05-06T12:18:10Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Microarrays ist eine molekularbiologische Methode, die verwendet wird um Nachweise in biologischen Proben durchzuführen. In Zuge dieser Vorlesung wird unter Microarrays, lediglich die DNA-Chip Microarray-Methode verstanden, bei der DNA-Sequenzen nachgewiesen werden und [[Transkriptom|Transkriptome]] bestimmt werden können&lt;br /&gt;
&lt;br /&gt;
[[File:Cdnaarray.jpg|thumb|Ausschnitt aus einem cDNA-Microarraychip]]&lt;br /&gt;
&lt;br /&gt;
== Funktionsweise ==&lt;br /&gt;
&lt;br /&gt;
Die Microarraytechnologie nutzt Halbleiter um kurze DNA-Sonden an einem Ende zu binden. Dabei werden unterschiedliche Sequenzen bekannter Gene an unterschiedlichen Punkten auf dem Chip gebündelt gebunden, sodass verschiedene Spots mit gleichen Sequenzen entstehen (siehe Abbildung 1). Die zu analysierende mRNA-Probe muss für die Methode in cDNA umgeschrieben werden, wobei eine der Basen fluoreszent markiert ist. Anschließend wird die cDNA auf dem DNA-Chip aufgetragen, wobei ähnliche Sequenzen hybridisieren und damit die cDNA auf dem Chip in Clustern mit ähnlichen Sequenzen anheften. Nach der Fixierung werden ungebundene cDNA-Stränge heruntergewaschen. Anschließend wird die Fluorszenz der Spots gemessen, welche gleichzusetzen mit der Menge gebundener cDNA ist und somit mit der Menge des exprimierten Gens die der Sondensequenz entspricht. &lt;br /&gt;
&lt;br /&gt;
== Nachteile, die zu beachten sind ==&lt;br /&gt;
&lt;br /&gt;
Die Microarraytechnologie tritt heutzutage etwas in den Hintergrund, da die Methode einigen Einschränkungen unterliegt. Zum einen löst das Microarray die Sequenz nicht auf die Einzelbase auf, weshalb Mutanten und Splicevarianten oftmals nicht bestimmt werden können. Dies liegt daran, dass auch Sequenzen hybridisieren, die nicht 100% übereinstimmen. Außerdem beruht die Methode auf optischer Messung, was bedeutet, dass ein gewisses Maß an Hintergrundrauschen unvermeidbar ist und eine Messuntergrenze besteht. Somit kann es vorkommen, dass geringe Mengen an bestimmten Sequenzen nicht nachgewiesen werden können. Diese Methode besitzt zudem eine Messobergrenze, denn wenn alle Sonden in einem Spot hybridisiert haben, kann weitere komplementäre cDNA nicht binden und verfällt wenn sie heruntergewaschen wird.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Microarrays&amp;diff=62</id>
		<title>Microarrays</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Microarrays&amp;diff=62"/>
		<updated>2019-05-06T12:04:21Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Microarrays ist eine molekularbiologische Methode, die verwendet wird um Nachweise in biologischen Proben durchzuführen. In Zuge dieser Vorlesung wird unter Microarrays, lediglich die DNA-Chip Microarray-Methode verstanden, bei der DNA-Sequenzen nachgewiesen werden &lt;br /&gt;
&lt;br /&gt;
[[File:Cdnaarray.jpg|thumb|Ausschnitt aus einem cDNA-Microarraychip]]&lt;br /&gt;
&lt;br /&gt;
== Funktionsweise ==&lt;br /&gt;
&lt;br /&gt;
Die Microarraytechnologie nutzt Halbleiter um kurze DNA-Sonden an einem Ende zu binden. Dabei werden unterschiedliche Sequenzen bekannter Gene an unterschiedlichen Punkten auf dem Chip gebündelt gebunden, sodass verschiedene Spots mit gleichen Sequenzen entstehen (siehe Abbildung 1). Die zu analysierende mRNA-Probe muss für die Methode in cDNA umgeschrieben werden, wobei eine der Basen fluoreszent markiert ist. Anschließend wird die cDNA auf dem DNA-Chip aufgetragen, wobei ähnliche Sequenzen hybridisieren und damit die cDNA auf dem Chip in Clustern mit ähnlichen Sequenzen anheften. Nach der Fixierung werden ungebundene cDNA-Stränge heruntergewaschen. Anschließend wird die Fluorszenz der Spots gemessen, welche gleichzusetzen mit der Menge gebundener cDNA ist und somit mit der Menge des exprimierten Gens die der Sondensequenz entspricht. &lt;br /&gt;
&lt;br /&gt;
== Nachteile, die zu beachten sind ==&lt;br /&gt;
&lt;br /&gt;
Die Microarraytechnologie tritt heutzutage etwas in den Hintergrund, da die Methode einigen Einschränkungen unterliegt. Zum einen löst das Microarray die Sequenz nicht auf die Einzelbase auf, weshalb Mutanten und Splicevarianten oftmals nicht bestimmt werden können. Dies liegt daran, dass auch Sequenzen hybridisieren, die nicht 100% übereinstimmen. Außerdem beruht die Methode auf optischer Messung, was bedeutet, dass ein gewisses Maß an Hintergrundrauschen unvermeidbar ist und eine Messuntergrenze besteht. Somit kann es vorkommen, dass geringe Mengen an bestimmten Sequenzen nicht nachgewiesen werden können. Diese Methode besitzt zudem eine Messobergrenze, denn wenn alle Sonden in einem Spot hybridisiert haben, kann weitere komplementäre cDNA nicht binden und verfällt wenn sie heruntergewaschen wird.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Microarrays&amp;diff=61</id>
		<title>Microarrays</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Microarrays&amp;diff=61"/>
		<updated>2019-05-06T12:03:29Z</updated>

		<summary type="html">&lt;p&gt;Patrick Melichar: Created page with &amp;quot;Microarrays ist eine molekularbiologische Methode, die verwendet wird um Nachweise in biologischen Proben durchzuführen. In Zuge dieser Vorlesung wird unter Microarrays, ledi...&amp;quot;&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Microarrays ist eine molekularbiologische Methode, die verwendet wird um Nachweise in biologischen Proben durchzuführen. In Zuge dieser Vorlesung wird unter Microarrays, lediglich die DNA-Chip Microarray-Methode verstanden, bei der DNA-Sequenzen nachgewiesen werden &lt;br /&gt;
&lt;br /&gt;
[[Cdnaarray.jpg|thumb|Ausschnitt aus einem cDNA-Microarraychip]]&lt;br /&gt;
&lt;br /&gt;
== Funktionsweise ==&lt;br /&gt;
&lt;br /&gt;
Die Microarraytechnologie nutzt Halbleiter um kurze DNA-Sonden an einem Ende zu binden. Dabei werden unterschiedliche Sequenzen bekannter Gene an unterschiedlichen Punkten auf dem Chip gebündelt gebunden, sodass verschiedene Spots mit gleichen Sequenzen entstehen (siehe Abbildung 1). Die zu analysierende mRNA-Probe muss für die Methode in cDNA umgeschrieben werden, wobei eine der Basen fluoreszent markiert ist. Anschließend wird die cDNA auf dem DNA-Chip aufgetragen, wobei ähnliche Sequenzen hybridisieren und damit die cDNA auf dem Chip in Clustern mit ähnlichen Sequenzen anheften. Nach der Fixierung werden ungebundene cDNA-Stränge heruntergewaschen. Anschließend wird die Fluorszenz der Spots gemessen, welche gleichzusetzen mit der Menge gebundener cDNA ist und somit mit der Menge des exprimierten Gens die der Sondensequenz entspricht. &lt;br /&gt;
&lt;br /&gt;
== Nachteile, die zu beachten sind ==&lt;br /&gt;
&lt;br /&gt;
Die Microarraytechnologie tritt heutzutage etwas in den Hintergrund, da die Methode einigen Einschränkungen unterliegt. Zum einen löst das Microarray die Sequenz nicht auf die Einzelbase auf, weshalb Mutanten und Splicevarianten oftmals nicht bestimmt werden können. Dies liegt daran, dass auch Sequenzen hybridisieren, die nicht 100% übereinstimmen. Außerdem beruht die Methode auf optischer Messung, was bedeutet, dass ein gewisses Maß an Hintergrundrauschen unvermeidbar ist und eine Messuntergrenze besteht. Somit kann es vorkommen, dass geringe Mengen an bestimmten Sequenzen nicht nachgewiesen werden können. Diese Methode besitzt zudem eine Messobergrenze, denn wenn alle Sonden in einem Spot hybridisiert haben, kann weitere komplementäre cDNA nicht binden und verfällt wenn sie heruntergewaschen wird.&lt;/div&gt;</summary>
		<author><name>Patrick Melichar</name></author>
	</entry>
</feed>