<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>http://wiki.bioinfo.nat.tu-bs.de/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Skl</id>
	<title>Bioinformatik Wiki - User contributions [en]</title>
	<link rel="self" type="application/atom+xml" href="http://wiki.bioinfo.nat.tu-bs.de/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Skl"/>
	<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/Special:Contributions/Skl"/>
	<updated>2026-05-28T19:13:25Z</updated>
	<subtitle>User contributions</subtitle>
	<generator>MediaWiki 1.39.7</generator>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=958</id>
		<title>Glossar</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=958"/>
		<updated>2021-09-30T19:28:39Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* R */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== A ==&lt;br /&gt;
[[3_Alignments#Alignments|Alignment]]: optimales &amp;quot;aneinander Ausrichten&amp;quot; von Sequenzen &amp;lt;br&amp;gt;&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Algorithmus]]: Verarbeitungsvorschrift, die aus einer endlichen Folge von eindeutig ausführbaren Anweisungen besteht, mit der man eine Vielzahl gleichartiger Aufgaben lösen kann&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Assembly]]: Bioinformatisches Verfahren, bei dem überlappende reads erst zu Contings und anschließend zu Scaffolds zusammengesetzt werden.&lt;br /&gt;
&lt;br /&gt;
== B ==&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_2:_Benjamini-Hochberg-Prozedur|Benjamini-Hochberg-Prozedur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_1:_Bonferroni-Korrektur|Bonferroni-Korrektur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[4.Burrows-Wheeler|Burrows-Wheeler Transformation]]&lt;br /&gt;
&lt;br /&gt;
== C ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Contiq]]: Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken &amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Sequenzabdeckung|Coverage]]: Die Anzahl der reads an einer beliebigen Stelle der Sequenz, die diese abdecken&lt;br /&gt;
&lt;br /&gt;
== D ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Dynamic programming]]: Zerlegung eines Problems in viele Unterprobleme, die nacheinander gelöst werden &lt;br /&gt;
&lt;br /&gt;
== E ==&lt;br /&gt;
== F ==&lt;br /&gt;
[[1_Datenbanken#FASTA|FASTA-Format]]: Allgemeines Format der Sequenzdaten (Protein oder DNA) in Textform gespeichert, festgelegter Aufbau  &amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#FASTQ|FASTQ-Format]]: Textbasierte Methode zur Speicherung einer Sequenz (DNA/RNA). Dabei wird auch die Qualität der sequenzierten Base jeweils in einem ASCII Symbol vermerkt&lt;br /&gt;
&lt;br /&gt;
== G ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|gap penalty]]: Bewertung von Lücken, die in einem Alignment eingefügt werden &lt;br /&gt;
&lt;br /&gt;
== H ==&lt;br /&gt;
== I ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Illumina_Sequencing_.282nd_Generation_Sequencing.29|Illumina]]&lt;br /&gt;
&lt;br /&gt;
== J ==&lt;br /&gt;
== K ==&lt;br /&gt;
== L ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Lander-Waterman-Modell|Lander-Waterman-Modell]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|Library]]: Pool von DNA-Fragmenten, der aus einer Probe generiert wurde&lt;br /&gt;
&lt;br /&gt;
== M ==&lt;br /&gt;
[[Microarrays]]&lt;br /&gt;
&lt;br /&gt;
== N ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|NGS]]: Next Generation Sequencing, Sammelbegriff für neuartige Sequenziermethoden, die einen höhere Durchsatz besitzen als die klassische Sangermethode. Dies ist möglich, da die Sequenzierungen parallel durchgeführt werden können &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#t-Test|Nullhypothese]]&lt;br /&gt;
&lt;br /&gt;
== O ==&lt;br /&gt;
== P ==&lt;br /&gt;
[[7_Multiples_Testen#P-Wert|p-value]]&lt;br /&gt;
&lt;br /&gt;
== Q ==&lt;br /&gt;
== R ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|reads]]: Aus der RNA-Seq. erhaltene Fragmente sequenzierter RNA. Diese können anschließend einem Refernezgenom zugeordnet werden.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[RNAseq|RNASeq]]: Sequenzierung des gesamten Transkriptoms einer Zelle durch NGS-Methoden. Dazu muss die mRNA durch Reverse Transkriptase in cDNA umgeschrieben werden. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[9_Biomarker#Receiver Operation Characteristic (ROC)|ROC]]: steht für Receiver Operating Characteristik. Es ist ein statistisches Verfahren, mit dem die Aussagekraft von Laborparametern optimiert und verglichen werden kann. Dabei wird durch die Bestimmung der Sensitivität und Spezifität der optimale Threshold bestimmt. Dies geschieht mittels der Grenzwertoptimierungskurve (ROC- Kurve). &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#RPKM|RPKM]]: Reads per kilobase of transcript per Million mapped reads&lt;br /&gt;
&lt;br /&gt;
== S ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Scaffold]]: Einheit von Contiqs und Lücken (auch Supercontiqs genannt), die die Reihenfolge, Orientierung und Größe der Lücken zwischen den Contiqs definiert.&amp;lt;br&amp;gt;&lt;br /&gt;
[[3_Alignments#Smith-Waterman_Algorithmus|Smith-Waterman Algorithmus]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[5_Transkriptom_RNA_Seq_2#Sequenziertiefe|Sequenziertiefe]]: gibt an, wie oft ein bestimmter Abschnitt eines Genoms sequenziert wurde und bestimmt damit die Empfindlichkeit und Genauigkeit einer Sequenzierung&lt;br /&gt;
&lt;br /&gt;
== T ==&lt;br /&gt;
[[7_Multiples_Testen#t-Test|t-Test]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TMM|TMM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TPM|TPM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[Transkriptom]]&lt;br /&gt;
&lt;br /&gt;
== U ==&lt;br /&gt;
== V ==&lt;br /&gt;
== W ==&lt;br /&gt;
== X ==&lt;br /&gt;
== Y ==&lt;br /&gt;
== Z ==&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=957</id>
		<title>Glossar</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=957"/>
		<updated>2021-09-30T15:39:37Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* S */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== A ==&lt;br /&gt;
[[3_Alignments#Alignments|Alignment]]: optimales &amp;quot;aneinander Ausrichten&amp;quot; von Sequenzen &amp;lt;br&amp;gt;&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Algorithmus]]: Verarbeitungsvorschrift, die aus einer endlichen Folge von eindeutig ausführbaren Anweisungen besteht, mit der man eine Vielzahl gleichartiger Aufgaben lösen kann&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Assembly]]: Bioinformatisches Verfahren, bei dem überlappende reads erst zu Contings und anschließend zu Scaffolds zusammengesetzt werden.&lt;br /&gt;
&lt;br /&gt;
== B ==&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_2:_Benjamini-Hochberg-Prozedur|Benjamini-Hochberg-Prozedur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_1:_Bonferroni-Korrektur|Bonferroni-Korrektur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[4.Burrows-Wheeler|Burrows-Wheeler Transformation]]&lt;br /&gt;
&lt;br /&gt;
== C ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Contiq]]: Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken &amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Sequenzabdeckung|Coverage]]: Die Anzahl der reads an einer beliebigen Stelle der Sequenz, die diese abdecken&lt;br /&gt;
&lt;br /&gt;
== D ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Dynamic programming]]: Zerlegung eines Problems in viele Unterprobleme, die nacheinander gelöst werden &lt;br /&gt;
&lt;br /&gt;
== E ==&lt;br /&gt;
== F ==&lt;br /&gt;
[[1_Datenbanken#FASTA|FASTA-Format]]: Allgemeines Format der Sequenzdaten (Protein oder DNA) in Textform gespeichert, festgelegter Aufbau  &amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#FASTQ|FASTQ-Format]]: Textbasierte Methode zur Speicherung einer Sequenz (DNA/RNA). Dabei wird auch die Qualität der sequenzierten Base jeweils in einem ASCII Symbol vermerkt&lt;br /&gt;
&lt;br /&gt;
== G ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|gap penalty]]: Bewertung von Lücken, die in einem Alignment eingefügt werden &lt;br /&gt;
&lt;br /&gt;
== H ==&lt;br /&gt;
== I ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Illumina_Sequencing_.282nd_Generation_Sequencing.29|Illumina]]&lt;br /&gt;
&lt;br /&gt;
== J ==&lt;br /&gt;
== K ==&lt;br /&gt;
== L ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Lander-Waterman-Modell|Lander-Waterman-Modell]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|Library]]: Pool von DNA-Fragmenten, der aus einer Probe generiert wurde&lt;br /&gt;
&lt;br /&gt;
== M ==&lt;br /&gt;
[[Microarrays]]&lt;br /&gt;
&lt;br /&gt;
== N ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|NGS]]: Next Generation Sequencing, Sammelbegriff für neuartige Sequenziermethoden, die einen höhere Durchsatz besitzen als die klassische Sangermethode. Dies ist möglich, da die Sequenzierungen parallel durchgeführt werden können &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#t-Test|Nullhypothese]]&lt;br /&gt;
&lt;br /&gt;
== O ==&lt;br /&gt;
== P ==&lt;br /&gt;
[[7_Multiples_Testen#P-Wert|p-value]]&lt;br /&gt;
&lt;br /&gt;
== Q ==&lt;br /&gt;
== R ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|reads]]: Aus der RNA-Seq. erhaltene Fragmente sequenzierter RNA. Diese können anschließend einem Refernezgenom zugeordnet werden.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[RNAseq|RNASeq]]: Sequenzierung des gesamten Transkriptoms einer Zelle durch NGS-Methoden. Dazu muss die mRNA durch Reverse Transkriptase in cDNA umgeschrieben werden. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#RPKM|RPKM]]: Reads per kilobase of transcript per Million mapped reads&lt;br /&gt;
&lt;br /&gt;
== S ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Scaffold]]: Einheit von Contiqs und Lücken (auch Supercontiqs genannt), die die Reihenfolge, Orientierung und Größe der Lücken zwischen den Contiqs definiert.&amp;lt;br&amp;gt;&lt;br /&gt;
[[3_Alignments#Smith-Waterman_Algorithmus|Smith-Waterman Algorithmus]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[5_Transkriptom_RNA_Seq_2#Sequenziertiefe|Sequenziertiefe]]: gibt an, wie oft ein bestimmter Abschnitt eines Genoms sequenziert wurde und bestimmt damit die Empfindlichkeit und Genauigkeit einer Sequenzierung&lt;br /&gt;
&lt;br /&gt;
== T ==&lt;br /&gt;
[[7_Multiples_Testen#t-Test|t-Test]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TMM|TMM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TPM|TPM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[Transkriptom]]&lt;br /&gt;
&lt;br /&gt;
== U ==&lt;br /&gt;
== V ==&lt;br /&gt;
== W ==&lt;br /&gt;
== X ==&lt;br /&gt;
== Y ==&lt;br /&gt;
== Z ==&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6.Normalisierungen&amp;diff=956</id>
		<title>6.Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6.Normalisierungen&amp;diff=956"/>
		<updated>2021-09-30T15:36:01Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* b: Normalisierung mit TPM */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==Aufgabe 1: Grundlagen== &lt;br /&gt;
===a:  Warum ist es notwendig RNASeq Daten zu normalisieren?=== &lt;br /&gt;
*Eliminieren von statischen Abweichungen, die durch z.B. verschiedene Durchführungsrunden, unterschiedliche Bedingungen, Laborausstattung, Experimentatoren, …  entstehen&lt;br /&gt;
* Heterologe Geneigenschaften können zu unterschiedlichen Ergebnissen bei eigentlich gleicher Genexpression führen&lt;br /&gt;
* Vergleichbarkeit von Proben ermöglichen&lt;br /&gt;
&lt;br /&gt;
===b: Rolle der Sequenziertiefe und Genlänge===&lt;br /&gt;
Die Sequenziertiefen und Genlängen müssen normalisiert werden, um die erhaltenen RNASeq Daten miteinander vergleichen zu können, da diese oft sehr unterschiedlich sind und das die Auswertung beeinflussen kann. So erhält man für längere Gene möglicherweise mehr reads, als für kürzere Gene, obwohl die Genexpression gleich ist. Der Fehlschluss liegt nah, dass das längere Gen stärker exprimiert wird. Bei einer hohen Sequenziertiefe erhält man mehr reads, als bei einer niedrigen Sequenziertiefe. Dabei muss das Verhältnis der erhaltenen reads für ein Gen, zu der Gesamtzahl an reads einer Sequenzierung betrachtet werden. Dies ist durch Normalisierungen möglich.&lt;br /&gt;
&lt;br /&gt;
==Aufgabe 2: RPKM und TPM==&lt;br /&gt;
{| class=&amp;quot;wikitable center&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Gen &amp;amp; Genlänge (L) !! Counts (c) Replikat 1 !! Counts (c) Replikat 2&lt;br /&gt;
|-&lt;br /&gt;
| A (7 kb) || 5 || 16&lt;br /&gt;
|-&lt;br /&gt;
| B (12 kb) || 10 || 36&lt;br /&gt;
|-&lt;br /&gt;
| C (0,5 kb) || 2 || 8&lt;br /&gt;
|-&lt;br /&gt;
| D (25 kb) || 1 || 0&lt;br /&gt;
|}&lt;br /&gt;
===a: Normalisierung mit RPKM===&lt;br /&gt;
* RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' &lt;br /&gt;
* Für die Normalisierung wird die Formel &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; verwendet.&lt;br /&gt;
 &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &lt;br /&gt;
'''Beispiel Gen A, Replikat 1:''' &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt; RPKM (A1) =  \frac{ 5}{7 kb \cdot 18} = 0,0397 &amp;lt;/math&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable center&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Gen !! RPKM Replikat 1 !! RPKM Replikat 2&lt;br /&gt;
|-&lt;br /&gt;
| A || 0,0397 || 0,0381&lt;br /&gt;
|-&lt;br /&gt;
| B || 0,0463 || 0,05&lt;br /&gt;
|-&lt;br /&gt;
| C || 0,2222 || 0,2667&lt;br /&gt;
|-&lt;br /&gt;
| D || 0,0022 || 0&lt;br /&gt;
|}&lt;br /&gt;
* Ein hoher RPKM Wert, sagt aus, dass die Genexpression stärker ist, als bei einem niedrigeren RPKM Wert, indem die Größe des Gens berücksichtigt wird. &lt;br /&gt;
* Zum Vergleich der Genexpression innerhalb einer Probe, können die RPKM Werte genutzt werden, sie sind jedoch nicht dafür geeignet Genexpressionen von Genen verschiedener Proben miteinander zu vergleichen, da die Bedingungen meist sehr unterschiedlich sind und falsche Aussagen über die Genexpressionen gemacht werden können. Die Summe aller RPKMs ergibt nicht 100 % und kann somit keine Anteile am Ganzen widerspiegeln.&lt;br /&gt;
&lt;br /&gt;
===b: Normalisierung mit TPM===&lt;br /&gt;
* TPM steht für 'Transcripts per Million. &lt;br /&gt;
* Wenn 1 Millionen Transkripte sequenziert werden würden, wäre TPMi die Anzahl an Transkripten des Typs 'i'.&lt;br /&gt;
* Bei TPM wird außerdem die totale Anzahl an reads nicht berücksichtigt.&amp;lt;br&amp;gt;&lt;br /&gt;
* Anders, als bei der Normalisierung mit RPKM wird erst die Genlänge und dann die Sequenziertiefe normalisiert. &lt;br /&gt;
* TPM berechnet das Verhältnis zwischen den Ergebnissen und die Werte in jeder Spalte ergeben 1 Million. &lt;br /&gt;
* Für die Normalisierung wird die Formel &amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; verwendet.&lt;br /&gt;
'''Parameter:''' &amp;lt;br&amp;gt;&lt;br /&gt;
c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel Gen A, Replikat 1:''' &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  TPM (A1) =  \frac{ 5}{7000}  \cdot  \dfrac {1}{ \dfrac {5}{7000} +  \dfrac {10}{12000} +  \dfrac {2}{500} + \dfrac {1}{25000}}  \cdot 10^6  = 127834 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable center&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Gen !! TPM Replikat 1 !! TPM Replikat 2&lt;br /&gt;
|-&lt;br /&gt;
| A || 127834 || 107383&lt;br /&gt;
|-&lt;br /&gt;
| B || 149139 || 140940&lt;br /&gt;
|-&lt;br /&gt;
| C || 715868 || 751678&lt;br /&gt;
|-&lt;br /&gt;
| D || 7159 || 0&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
===c: Anwendungsbereich===&lt;br /&gt;
RPKM und TPM werden genutzt um die Expression verschiedener Gene, aus der gleichen Probe, einer RNA Sequenzierung miteinander zu vergleichen. Sie sind also Normalisierungsverfahren innerhalb einer Probe.&lt;br /&gt;
&lt;br /&gt;
==Aufgabe 3: Normalisierung zwischen Proben==&lt;br /&gt;
==a: Normalisierungsmethode==&lt;br /&gt;
Für die Normalisierung zwischen Proben wird TMM eingesetzt. TMM steht für 'Trimmed mean of M – Values normalization method'.&lt;br /&gt;
==b: Wieso wird die Normalisierung bei RNASeq-Proben angewendet?==&lt;br /&gt;
* Um das relative RNA-Produktionsniveau aus RNASeq-Daten abzuschätzen&lt;br /&gt;
* Es können heterologe Geneigenschaften zwischen 2 Proben auftauchen und eine identische Genexpression, fälschlicherweise, als unterschiedlich erkannt werden&lt;br /&gt;
* Beispiel: Expression zwischen gesunden und kranken Patienten soll auf bestimmte Marker untersucht werden&lt;br /&gt;
&lt;br /&gt;
==c. Normalisierung mit TMM==&lt;br /&gt;
'''1.''' Der Gewichtungsfaktor für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k' wird bestimmt. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''2.''' Der Mittelwert aller Expressionsverhältnisse wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
'''3.''' Die gewichteten Mittelwerte aller Expressionsverhältnisse werden berechnet. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=955</id>
		<title>Glossar</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=955"/>
		<updated>2021-09-30T13:25:34Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* S */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== A ==&lt;br /&gt;
[[3_Alignments#Alignments|Alignment]]: optimales &amp;quot;aneinander Ausrichten&amp;quot; von Sequenzen &amp;lt;br&amp;gt;&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Algorithmus]]: Verarbeitungsvorschrift, die aus einer endlichen Folge von eindeutig ausführbaren Anweisungen besteht, mit der man eine Vielzahl gleichartiger Aufgaben lösen kann&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Assembly]]: Bioinformatisches Verfahren, bei dem überlappende reads erst zu Contings und anschließend zu Scaffolds zusammengesetzt werden.&lt;br /&gt;
&lt;br /&gt;
== B ==&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_2:_Benjamini-Hochberg-Prozedur|Benjamini-Hochberg-Prozedur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_1:_Bonferroni-Korrektur|Bonferroni-Korrektur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[4.Burrows-Wheeler|Burrows-Wheeler Transformation]]&lt;br /&gt;
&lt;br /&gt;
== C ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Contiq]]: Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken &amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Sequenzabdeckung|Coverage]]: Die Anzahl der reads an einer beliebigen Stelle der Sequenz, die diese abdecken&lt;br /&gt;
&lt;br /&gt;
== D ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Dynamic programming]]: Zerlegung eines Problems in viele Unterprobleme, die nacheinander gelöst werden &lt;br /&gt;
&lt;br /&gt;
== E ==&lt;br /&gt;
== F ==&lt;br /&gt;
[[1_Datenbanken#FASTA|FASTA-Format]]: Allgemeines Format der Sequenzdaten (Protein oder DNA) in Textform gespeichert, festgelegter Aufbau  &amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#FASTQ|FASTQ-Format]]: Textbasierte Methode zur Speicherung einer Sequenz (DNA/RNA). Dabei wird auch die Qualität der sequenzierten Base jeweils in einem ASCII Symbol vermerkt&lt;br /&gt;
&lt;br /&gt;
== G ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|gap penalty]]: Bewertung von Lücken, die in einem Alignment eingefügt werden &lt;br /&gt;
&lt;br /&gt;
== H ==&lt;br /&gt;
== I ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Illumina_Sequencing_.282nd_Generation_Sequencing.29|Illumina]]&lt;br /&gt;
&lt;br /&gt;
== J ==&lt;br /&gt;
== K ==&lt;br /&gt;
== L ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Lander-Waterman-Modell|Lander-Waterman-Modell]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|Library]]: Pool von DNA-Fragmenten, der aus einer Probe generiert wurde&lt;br /&gt;
&lt;br /&gt;
== M ==&lt;br /&gt;
[[Microarrays]]&lt;br /&gt;
&lt;br /&gt;
== N ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|NGS]]: Next Generation Sequencing, Sammelbegriff für neuartige Sequenziermethoden, die einen höhere Durchsatz besitzen als die klassische Sangermethode. Dies ist möglich, da die Sequenzierungen parallel durchgeführt werden können &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#t-Test|Nullhypothese]]&lt;br /&gt;
&lt;br /&gt;
== O ==&lt;br /&gt;
== P ==&lt;br /&gt;
[[7_Multiples_Testen#P-Wert|p-value]]&lt;br /&gt;
&lt;br /&gt;
== Q ==&lt;br /&gt;
== R ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|reads]]: Aus der RNA-Seq. erhaltene Fragmente sequenzierter RNA. Diese können anschließend einem Refernezgenom zugeordnet werden.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[RNAseq|RNASeq]]: Sequenzierung des gesamten Transkriptoms einer Zelle durch NGS-Methoden. Dazu muss die mRNA durch Reverse Transkriptase in cDNA umgeschrieben werden. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#RPKM|RPKM]]: Reads per kilobase of transcript per Million mapped reads&lt;br /&gt;
&lt;br /&gt;
== S ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Scaffold]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3_Alignments#Smith-Waterman_Algorithmus|Smith-Waterman Algorithmus]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[5_Transkriptom_RNA_Seq_2#Sequenziertiefe|Sequenziertiefe]]: gibt an, wie oft ein bestimmter Abschnitt eines Genoms sequenziert wurde und bestimmt damit die Empfindlichkeit und Genauigkeit einer Sequenzierung&lt;br /&gt;
&lt;br /&gt;
== T ==&lt;br /&gt;
[[7_Multiples_Testen#t-Test|t-Test]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TMM|TMM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TPM|TPM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[Transkriptom]]&lt;br /&gt;
&lt;br /&gt;
== U ==&lt;br /&gt;
== V ==&lt;br /&gt;
== W ==&lt;br /&gt;
== X ==&lt;br /&gt;
== Y ==&lt;br /&gt;
== Z ==&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5_Transkriptom_RNA_Seq_2&amp;diff=954</id>
		<title>5 Transkriptom RNA Seq 2</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5_Transkriptom_RNA_Seq_2&amp;diff=954"/>
		<updated>2021-09-30T13:20:00Z</updated>

		<summary type="html">&lt;p&gt;Skl: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
= RNAseq =&lt;br /&gt;
RNA sequencing ist eine Methode zur Analyse von Transkriptomen. Hierbei wird die Sequenz aller in der Probe vorhandenen mRNA Moleküle durch Next-Generation Sequencing (NGS) ermittelt.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
== 1. Isolierung von mRNA ==&lt;br /&gt;
* nur 1-2% der totalen RNA ist mRNA&lt;br /&gt;
* 90% rRNA&lt;br /&gt;
* weil wir nur die mRNA isolieren wollen, müssen wir diese von der restlichen RNA trennen &lt;br /&gt;
* das ist entweder durch die sogennante poly(A) Anreicherung möglich, dabeimacht man sich die besondere Eigenschaft der mRNA zu nutze &lt;br /&gt;
* diese besitzt im Gegensatz zu anderen RNA Spezies einen polyA-Schwanz, immobilisiert man auf der Matrix einer Chromatofraphiesäule polyT-Seqeunezen, kann die mRNA komplementär an diese binden und kann so hufgereinigt werden &lt;br /&gt;
* die zweite Möglichkeit ist der spezifische Abbau von rRNA&lt;br /&gt;
* diese Vorgehensweise gewinnt vor allem bei Prokaryotischer mRNA an Bedeutung, bei der es keinen polyA-Schwanz gibt &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
== 2. cDNA Synthese und Library Präparation ==&lt;br /&gt;
*Information über kodierenden Strang kann durch 2-stufige cDNA Synthese und dUTP Nukleotiden konserviert werden.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
[[File:RNA-Seq.png|400px|center|thumb]]&lt;br /&gt;
&lt;br /&gt;
* Abbau des non-coding Stranges durch durch Uracil-DNA-Glykosylase&lt;br /&gt;
* baut spezifisch den non-coding Strang ab, weil dieser als einziger Uracil besitzt &lt;br /&gt;
* d.h. alle zum cDNA-Originalstrang komplementären Stränge werden abgebaut&lt;br /&gt;
* durch die Adapter bleibt die Topologie erhalten &lt;br /&gt;
* es folgt die Amplifikation mittels PCR&lt;br /&gt;
&lt;br /&gt;
== 3. Sequenzierung/ Next generation Sequencing ==&lt;br /&gt;
* Sequenziertiefe bestimmt die Empfindlichkeit und die Genauigkeit&lt;br /&gt;
* 5 Millionen reads ausreichend für mittel-hoch exprimierte Gene&lt;br /&gt;
* 100 Millionen reads für schwach exprimierte Gene&lt;br /&gt;
* wichtig: Anzahl an Replikaten bestimmt statistische Sensitivität für Unterschiede&lt;br /&gt;
&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
| &amp;amp;nbsp;|| colspan=&amp;quot;3&amp;quot;| Replikate pro Gruppe&lt;br /&gt;
|-&lt;br /&gt;
| fold change|| 3|| 5|| 10&lt;br /&gt;
|-&lt;br /&gt;
| 1,25|| 17%|| 25%|| 44%&lt;br /&gt;
|-&lt;br /&gt;
| 1,5|| 43%|| 64%|| 91%&lt;br /&gt;
|-&lt;br /&gt;
| 2|| 87%|| 98%|| 100%&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
* die Tabelle stellt die Wahrscheinlichkeit dar, einen bestimmten fold change bei einer bestimmten Anzahl an Repliken zu delektieren bzw. statistisch signifikant zu finden&lt;br /&gt;
&lt;br /&gt;
== 4. Datenanalyse ==&lt;br /&gt;
Präsprozessierung der Rohdaten: &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;amp;rArr;Filtern von Basen mit geringer Sequenzierqualität&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;amp;rArr; Trimmen von Adaptersequenzen und PCR-Primersequenzen&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;amp;rArr; Programme: FASTQC, NGSQC, Trimmomatic&lt;br /&gt;
&lt;br /&gt;
== 5. Read Alignment ==&lt;br /&gt;
[[File:Read-alignment.png|center|1000px]]&lt;br /&gt;
&lt;br /&gt;
=== SAM und BAM Format === &lt;br /&gt;
* Enthält Informationen über die Sequenz-reads nach dem Alignment an ein Referenzgenom.&lt;br /&gt;
* SAM= Sequence Alignment/Map &lt;br /&gt;
* BAM= Binary Alignment/Map&lt;br /&gt;
* SAM ist ein textbasiertes Dateiformat und BAM ein binäres Dateiformat.&lt;br /&gt;
&lt;br /&gt;
== Sequenziertiefe ==&lt;br /&gt;
Die Sequenziertiefe gibt an, wie oft ein bestimmter Abschnitt eines Genoms sequenziert wurde und bestimmt damit die Empfindlichkeit und Genauigkeit einer Sequenzierung.&lt;br /&gt;
&amp;lt;center&amp;gt;&amp;lt;math&amp;gt; Sequenziertiefe=  \frac{\text{mapped reads * Fragmentlänge}}{\text{effective Genomgröße}}&amp;lt;/math&amp;gt;&amp;lt;/center&amp;gt;&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=953</id>
		<title>Glossar</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=953"/>
		<updated>2021-09-30T12:35:26Z</updated>

		<summary type="html">&lt;p&gt;Skl: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== A ==&lt;br /&gt;
[[3_Alignments#Alignments|Alignment]]: optimales &amp;quot;aneinander Ausrichten&amp;quot; von Sequenzen &amp;lt;br&amp;gt;&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Algorithmus]]: Verarbeitungsvorschrift, die aus einer endlichen Folge von eindeutig ausführbaren Anweisungen besteht, mit der man eine Vielzahl gleichartiger Aufgaben lösen kann&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Assembly]]: Bioinformatisches Verfahren, bei dem überlappende reads erst zu Contings und anschließend zu Scaffolds zusammengesetzt werden.&lt;br /&gt;
&lt;br /&gt;
== B ==&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_2:_Benjamini-Hochberg-Prozedur|Benjamini-Hochberg-Prozedur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_1:_Bonferroni-Korrektur|Bonferroni-Korrektur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[4.Burrows-Wheeler|Burrows-Wheeler Transformation]]&lt;br /&gt;
&lt;br /&gt;
== C ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Contiq]]: Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken &amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Sequenzabdeckung|Coverage]]: Die Anzahl der reads an einer beliebigen Stelle der Sequenz, die diese abdecken&lt;br /&gt;
&lt;br /&gt;
== D ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Dynamic programming]]: Zerlegung eines Problems in viele Unterprobleme, die nacheinander gelöst werden &lt;br /&gt;
&lt;br /&gt;
== E ==&lt;br /&gt;
== F ==&lt;br /&gt;
[[1_Datenbanken#FASTA|FASTA-Format]]: Allgemeines Format der Sequenzdaten (Protein oder DNA) in Textform gespeichert, festgelegter Aufbau  &amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#FASTQ|FASTQ-Format]]: Textbasierte Methode zur Speicherung einer Sequenz (DNA/RNA). Dabei wird auch die Qualität der sequenzierten Base jeweils in einem ASCII Symbol vermerkt&lt;br /&gt;
&lt;br /&gt;
== G ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|gap penalty]]: Bewertung von Lücken, die in einem Alignment eingefügt werden &lt;br /&gt;
&lt;br /&gt;
== H ==&lt;br /&gt;
== I ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Illumina_Sequencing_.282nd_Generation_Sequencing.29|Illumina]]&lt;br /&gt;
&lt;br /&gt;
== J ==&lt;br /&gt;
== K ==&lt;br /&gt;
== L ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Lander-Waterman-Modell|Lander-Waterman-Modell]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|Library]]: Pool von DNA-Fragmenten, der aus einer Probe generiert wurde&lt;br /&gt;
&lt;br /&gt;
== M ==&lt;br /&gt;
[[Microarrays]]&lt;br /&gt;
&lt;br /&gt;
== N ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|NGS]]: Next Generation Sequencing, Sammelbegriff für neuartige Sequenziermethoden, die einen höhere Durchsatz besitzen als die klassische Sangermethode. Dies ist möglich, da die Sequenzierungen parallel durchgeführt werden können &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#t-Test|Nullhypothese]]&lt;br /&gt;
&lt;br /&gt;
== O ==&lt;br /&gt;
== P ==&lt;br /&gt;
[[7_Multiples_Testen#P-Wert|p-value]]&lt;br /&gt;
&lt;br /&gt;
== Q ==&lt;br /&gt;
== R ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|reads]]: Aus der RNA-Seq. erhaltene Fragmente sequenzierter RNA. Diese können anschließend einem Refernezgenom zugeordnet werden.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[RNAseq|RNASeq]]: Sequenzierung des gesamten Transkriptoms einer Zelle durch NGS-Methoden. Dazu muss die mRNA durch Reverse Transkriptase in cDNA umgeschrieben werden. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#RPKM|RPKM]]: Reads per kilobase of transcript per Million mapped reads&lt;br /&gt;
&lt;br /&gt;
== S ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Scaffold]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3_Alignments#Smith-Waterman_Algorithmus|Smith-Waterman Algorithmus]]&lt;br /&gt;
&lt;br /&gt;
== T ==&lt;br /&gt;
[[7_Multiples_Testen#t-Test|t-Test]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TMM|TMM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TPM|TPM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[Transkriptom]]&lt;br /&gt;
&lt;br /&gt;
== U ==&lt;br /&gt;
== V ==&lt;br /&gt;
== W ==&lt;br /&gt;
== X ==&lt;br /&gt;
== Y ==&lt;br /&gt;
== Z ==&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Befehle&amp;diff=952</id>
		<title>3.Befehle</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3.Befehle&amp;diff=952"/>
		<updated>2021-09-30T11:02:58Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* Syntax */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== ''print''-Befehl ==&lt;br /&gt;
&lt;br /&gt;
 #Befehl: &lt;br /&gt;
 print()&lt;br /&gt;
 &lt;br /&gt;
 #Beispiel: &lt;br /&gt;
 print(“hello“)&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 hello &lt;br /&gt;
&lt;br /&gt;
=== Funktion ===&lt;br /&gt;
* der entsprechende Inhalt des ''print''-Befehls wird in der Console ausgegeben &lt;br /&gt;
&lt;br /&gt;
=== Syntax ===&lt;br /&gt;
* die runden Klammern dienen dazu den Anfang und das Ende der Ausgabe zu markieren&lt;br /&gt;
* Wörter, bei denen es sich nicht um einen Variablennamen handelt, müssen in Anführungszeichen gesetzt werden&lt;br /&gt;
* geschieht das nicht wird ein Syntaxfehler angezeigt (s.Beispiel_2)&lt;br /&gt;
* int und floats werden ohne Anführungszeichen eingegeben&lt;br /&gt;
&lt;br /&gt;
 #Beipsiel_2:&lt;br /&gt;
 print(falsch)&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 NameError: name 'falsch' is not defined&lt;br /&gt;
&lt;br /&gt;
* Python geht davon aus das es sich bei „falsch“ um eine Variable handelt und möchte den Wert dieser Variablen ausgeben. Es wurde aber keine Variable mit den Namen „falsch“ definiert&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== ''type''-Befehl ==&lt;br /&gt;
&lt;br /&gt;
 #Befehl&lt;br /&gt;
 type()&amp;lt;br&amp;gt;&lt;br /&gt;
 #Beispiel_1: &lt;br /&gt;
 a=&amp;quot;abc&amp;quot;&lt;br /&gt;
 d=True&lt;br /&gt;
 print(type(a))&lt;br /&gt;
 print(type(1))&lt;br /&gt;
 print(type(1.0)&lt;br /&gt;
 print(type(d))&lt;br /&gt;
 &lt;br /&gt;
 buch_1={&amp;quot;Buch&amp;quot;:&amp;quot;Der Herr der Ringe&amp;quot;, &amp;quot;Autor&amp;quot;:&amp;quot;Tolkien&amp;quot;, &amp;quot;Preis&amp;quot;:45}&lt;br /&gt;
 print(type(buch_1))&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 &amp;lt;class 'str'&amp;gt;&lt;br /&gt;
 &amp;lt;class 'int'&amp;gt;&lt;br /&gt;
 &amp;lt;class 'float'&amp;gt;&lt;br /&gt;
 &amp;lt;class 'bool'&amp;gt;&lt;br /&gt;
 &amp;lt;class 'dict'&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Funktion===&lt;br /&gt;
* mit dem ''type''-Befehl lässt sich der Datentyp bestimmen&lt;br /&gt;
&lt;br /&gt;
=== Syntax ===&lt;br /&gt;
* um den Datentyp zu bestimmen wird dieser in die Klammern des ''type''-Befehls geschrieben &lt;br /&gt;
* dabei kann es sich direkt um den Datentyp handeln oder einen Varibalennamen &lt;br /&gt;
* auch hier ist der print Befehl wieder notwendig um das Ergebnis ausgeben zu lassen &lt;br /&gt;
* ohne den print -Befehl wird der type -Befehl zwar ausgeführt, aber nicht in der Console ausgegeben&lt;br /&gt;
&lt;br /&gt;
== ''input'' -Befehl ==&lt;br /&gt;
&lt;br /&gt;
 #Befehl:&lt;br /&gt;
 eingabe=input()&lt;br /&gt;
 &lt;br /&gt;
 #Beispiel: &lt;br /&gt;
 zahl=input()&lt;br /&gt;
 print(zahl)&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 3 #eingegebene Zahl des Nutzers im Eingabefeld  &lt;br /&gt;
 3 #durch print-Befehl ausgegebene Zahl&lt;br /&gt;
&lt;br /&gt;
=== Funktionen ===&lt;br /&gt;
* ermöglicht dem Nutzer die Interaktion mit dem Programm &lt;br /&gt;
* so kann z.B. ein Rechenprogramm mit jeder beliebigen vom Nutzer eingegebenen Zahl rechnen und nicht nur mit vorab programmierten Zahlen &lt;br /&gt;
* gleichzeitig handelt es sich beim ''input''-Befehl auch um ein ''print''-Befehl, dazu muss der &lt;br /&gt;
&lt;br /&gt;
=== Syntax ===&lt;br /&gt;
* nach den Ausdruck &amp;quot;input&amp;quot; folgt eine Klammer, die bei Ausführung des Programms ein Eingabefeld in der Console erzeugt&lt;br /&gt;
* gleichzeitig handelt es sich beim ''input''-Befehl auch um ein ''print''-Befehl, dazu muss der entsprechende Text einfach in die Klammer eingegeben werden (s. Beispiel_2)&lt;br /&gt;
&lt;br /&gt;
 #Beispiel_2:&lt;br /&gt;
 zahl=input(&amp;quot;Gib hier diene Zahl ein: &amp;quot;)&lt;br /&gt;
 &lt;br /&gt;
 print(zahl)&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 Gib hier deine Zahl ein: 3&lt;br /&gt;
 3&lt;br /&gt;
&lt;br /&gt;
* die Eingabe des Nutzers wird meist durch eine Variable definiert, d.h.: &lt;br /&gt;
 eingabe=input()&lt;br /&gt;
* da der einzutragende Wert bei der Programmierung nicht bekannt ist, kann so „stellvertretend“ mit der Variablen programmiert werden &lt;br /&gt;
* s. Beispiel_3, bei der die Rechenoperation „*2“ mit der Variablen „zahl“ programmiert wird, welche später durch die Eingabe des Nutzers einen Zahlenwert erhält&lt;br /&gt;
* der Wert der Variablen wird also erst festgelegt, während das Programm läuft &lt;br /&gt;
* in der Console entsteht durch den ''input-Befehl'' ein „Eingabefeld“ (nicht direkt sichtbar) in das der Nutzer einen Wert (in Beispiel_1 eine Zahl) eintrage kann &lt;br /&gt;
* ACHTUNG!: jede Eingabe wird durch den input-Befehl automatisch als string gespeichert &lt;br /&gt;
* in Bespiel_3 wird die 3 in string-Form abgespeichert &lt;br /&gt;
* die Rechenoperation wird nicht als Multiplikation mit 2 verstanden sondern als Wiederholung des strings &lt;br /&gt;
&lt;br /&gt;
 #Beispiel_3: &lt;br /&gt;
 zahl=input(&amp;quot;Gib hier diene Zahl ein: &amp;quot;)&lt;br /&gt;
 ergebnis= zahl*2&lt;br /&gt;
 print(ergebnis)&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 Gib hier deine Zahl ein: 3&lt;br /&gt;
 33&lt;br /&gt;
&lt;br /&gt;
* der string 3 wird wiederholt und es kommt 33 statt 6 heraus &lt;br /&gt;
* Lösung: man kann den Datentyp des &amp;quot;inputs&amp;quot; vorab definieren:&lt;br /&gt;
 int(input()) , float(input())&lt;br /&gt;
* weiß man vorab nicht um welchen Datentypen es sich handelt ist der eval()-Befehl zu empfehlen (s. Beispiel 4) , dieser speichert die Eingabe automatisch unter dem passenden Datentypen ab (string, integer, float) &lt;br /&gt;
* hier ist allerdings zu beachten, dass in der Konsole, ein string wieder in Anführungszeichen gesetzt werden muss&lt;br /&gt;
&lt;br /&gt;
 #Beispiel_4: &lt;br /&gt;
 zahl=eval(input(&amp;quot;Gib hier diene Zahl ein: &amp;quot;))&lt;br /&gt;
 ergebnis= zahl*2&lt;br /&gt;
 print(ergebnis)&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 Gib hier deine Zahl ein: 3&lt;br /&gt;
 6&amp;lt;br&amp;gt;&lt;br /&gt;
 #oder &lt;br /&gt;
 Gib hier deine Zahl ein: 2.4&lt;br /&gt;
 4.8&amp;lt;br&amp;gt;&lt;br /&gt;
 #oder &lt;br /&gt;
 Gib hier deine Zahl ein: &amp;quot;a&amp;quot;&lt;br /&gt;
 aa&lt;br /&gt;
&lt;br /&gt;
== ''while''-Schleife ==&lt;br /&gt;
&lt;br /&gt;
 #Befehl&lt;br /&gt;
 while Bedingung:&lt;br /&gt;
     Operation() &amp;lt;br&amp;gt;&lt;br /&gt;
 #Beispiel:&lt;br /&gt;
 n=1&lt;br /&gt;
 while n&amp;lt;10: &lt;br /&gt;
     print(n)&lt;br /&gt;
     n=n+1&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 1&lt;br /&gt;
 2&lt;br /&gt;
 3&lt;br /&gt;
 4&lt;br /&gt;
 5&lt;br /&gt;
 6&lt;br /&gt;
 7&lt;br /&gt;
 8&lt;br /&gt;
 9&lt;br /&gt;
&lt;br /&gt;
=== Funktion ===&lt;br /&gt;
* bestimmte Operationen werden automatisch wiederholt &lt;br /&gt;
* erspart viel Programmierarbeit, da nicht alle Operationen einzeln programmiert werden müssen &lt;br /&gt;
&lt;br /&gt;
=== Syntax ===&lt;br /&gt;
* die Schleife wird mit dem Ausdruck &amp;quot;while&amp;quot; begonnen &lt;br /&gt;
* darauf folgt eine Bedingung, die überprüft wird (z.B. n&amp;lt;10) gefolgt von einem Doppelpunkt&lt;br /&gt;
* in den nächsten Zeilen folgen die Operationen, die innerhalb der Schleife durchgeführt werden sollen &lt;br /&gt;
* die zur Schleife gehörenden Operationen sind dadurch gekennzeichnet, dass der Code  eingerückt ist &lt;br /&gt;
* die ''while''-Schleife sollte so programmiert sein, dass sie irgendwann zu einem Ende kommt und nicht endlos weiterläuft, d.h. die zu überprüfende Bedingung darf irgendwann nicht mehr zutreffen &lt;br /&gt;
* --&amp;gt; ansonsten kommt es zu einer endlosen Schleife  &lt;br /&gt;
&lt;br /&gt;
==== Ablauf der Schleife ====&lt;br /&gt;
* am besten wird die Funktion und die Syntax einer Schleife klar, wenn man sie Schritt für Schritt durchgeht, hier am Beispiel_1: &lt;br /&gt;
* '''ersten Zeile: der Variablen n wir der Wert 1 zugeordnet''' &lt;br /&gt;
* '''zweite Zeile: so lange n kleiner als 10 ist werden folgende Operationen durchgeführt''' &lt;br /&gt;
*(hier wird die Bedingung überprüft, trifft sie zu werden die Operationen der Schleife durchgeführt)  &lt;br /&gt;
* '''dritte Zeile: gebe den Wert von n aus''' &lt;br /&gt;
* (im ersten Durchlauf beträgt der Wert, wie in der ersten Zeile definiert, den Wert 1) &lt;br /&gt;
* '''vierte Zeile: definiere die Variable n neu, indem du den Wert von n nimmst und 1 addierst'''&lt;br /&gt;
* (n wird neu definiert als der alte Wert von n plus eins, also 1+1, damit ist n jetzt 2) &lt;br /&gt;
* sobald die Operationen der Schleife durchgeführt sind, beginnt sie wieder von Neuem, also mit der Überprüfung der Bedingung &lt;br /&gt;
* so wird der Wert n immer größer&lt;br /&gt;
* erst wenn n=10, trifft die Bedingung nicht zu, die Operationen der Schleife werden nicht durchgeführt &lt;br /&gt;
* finden sich weiter Programmzeilen unterhalb der Schleife, die nicht Teil der Schleife sind, werden diese Programmzeilen erst nach Beendigung der Schleife ausgeführt&lt;br /&gt;
[[File:Flow diagram while_schleife.png|200px|thumb|center|flowchart ''while''-Schleife]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== ''len''-Befehl ==&lt;br /&gt;
&lt;br /&gt;
 #Befehl&lt;br /&gt;
 len(liste)&lt;br /&gt;
 &lt;br /&gt;
 #Beipiel_1:&lt;br /&gt;
 tier_1=[&amp;quot;Hund&amp;quot;,100,399,99,True]&lt;br /&gt;
 print(len(tier_1))&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 5&lt;br /&gt;
&lt;br /&gt;
=== Funktion ===&lt;br /&gt;
* gibt die Anzahl an Elementen in einer Liste, Dictionary, Tupel etc. an&lt;br /&gt;
&lt;br /&gt;
=== Syntax ===&lt;br /&gt;
* hinter dem Ausdruck &amp;quot;len&amp;quot; wird der Name der Liste in Klammern geschrieben &lt;br /&gt;
&lt;br /&gt;
=== Anwendungsmöglichkeiten ===&lt;br /&gt;
&lt;br /&gt;
==== ''len''-Befehl und ''while''-Schleife ====&lt;br /&gt;
* wenn mit der ''while''-Schleife eine Liste ausgeben werden soll, muss die Schleife so programmiert werden, dass die Variable die für die Indexzahl steht maximal so groß wird, wie die Anzahl an Elementen in der Liste (s.Beispiel_2)&lt;br /&gt;
&lt;br /&gt;
 #Beispiel_2&lt;br /&gt;
 i=0&lt;br /&gt;
 tier_1=[&amp;quot;Hund&amp;quot;,100,399,99,True]&lt;br /&gt;
 while i &amp;lt; 5:&lt;br /&gt;
     print(tier_1[i])&lt;br /&gt;
     i=i+1&lt;br /&gt;
 &lt;br /&gt;
 # wird die Variabel &amp;quot;i&amp;quot; größer als die Länge der Liste &lt;br /&gt;
 &lt;br /&gt;
 i=0&lt;br /&gt;
 tier_1=[&amp;quot;Hund&amp;quot;,100,399,99,True]&lt;br /&gt;
 while i &amp;lt; 6:&lt;br /&gt;
     print(tier_1[i])&lt;br /&gt;
     i=i+1&lt;br /&gt;
&lt;br /&gt;
output &lt;br /&gt;
 Hund&lt;br /&gt;
 100&lt;br /&gt;
 399&lt;br /&gt;
 99&lt;br /&gt;
 True&lt;br /&gt;
 &lt;br /&gt;
 # wird die Variabel &amp;quot;i&amp;quot; größer als die Länge der Liste&lt;br /&gt;
 &lt;br /&gt;
 IndexError: list index out of range&lt;br /&gt;
&lt;br /&gt;
* ist die Länge einer Liste unbekannt oder zu umständlich diese zu ermitteln, hilft der ''len''-Befehl &lt;br /&gt;
* statt einer Zahl steht dann &amp;quot;len(name_der_liste)&amp;quot; in der Schleife, dadurch wird die Länge der Liste automatisch ermittelt (s.Beispiel_3)&lt;br /&gt;
&lt;br /&gt;
 #Beipiel_3 &lt;br /&gt;
 i=0&lt;br /&gt;
 tier_1=[&amp;quot;Hund&amp;quot;,100,399,99,True]&lt;br /&gt;
 while i &amp;lt; len(tier_1):&lt;br /&gt;
    print(tier_1[i])&lt;br /&gt;
    i=i+1&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 Hund&lt;br /&gt;
 100&lt;br /&gt;
 399&lt;br /&gt;
 99&lt;br /&gt;
 True&lt;br /&gt;
&lt;br /&gt;
== ''for''- Schleife ==&lt;br /&gt;
 &lt;br /&gt;
 #Befehl: &lt;br /&gt;
 for element in sammlung: &lt;br /&gt;
 	befehl()&lt;br /&gt;
 &lt;br /&gt;
 #Beispiel_1:&lt;br /&gt;
 liste=[“Python”, 1, 4.5, True]&lt;br /&gt;
 &lt;br /&gt;
 for element in liste: &lt;br /&gt;
 	print(element)&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 Python&lt;br /&gt;
 1&lt;br /&gt;
 4.5&lt;br /&gt;
 True&lt;br /&gt;
&lt;br /&gt;
=== Funktion ===&lt;br /&gt;
* erlaubt, wie die ‘‘while‘‘- Schleife, die automatische Wiederholung von Befehlen &lt;br /&gt;
* bietet im Gegensatz zur ‘‘while‘‘-Schleife einige Vorteile (viele Funktionen der ''for''-Schleife wären zwar auch mit einer ''while''-Schleifen lösbar, die ''for''-Schleifen macht die Programmierung jedoch deutlich einfacher) &lt;br /&gt;
* die ''for''- Schleife eignet sich besonders gut für die einzelne Ausgabe der Elemente von Dictionaries &lt;br /&gt;
* sowie die Durchführung von Befehlen, die für jedes Element einer Sequenz (z.B. str) oder Sammlung (z.B. Liste) einmal durchgeführt werden soll&lt;br /&gt;
&lt;br /&gt;
=== Syntax ===&lt;br /&gt;
* nach den Ausdruck &amp;quot;for&amp;quot; kommt der  Name der Variablen, dieser steht stellvertretend für jedes Element einer Sammlung oder Sequenz&lt;br /&gt;
* beim ''input''-Befehl war es vorteilhaft die beim Programmieren noch nicht bekannte (weil erst später durch den Nutzer erfolgende) Eingabe bereits im Programmcode stellvertretende durch eine Variable zu definieren&lt;br /&gt;
* so konnte z.B. eine Rechnungen mit einer nicht bekannten Zahl programmiert werden &lt;br /&gt;
* das gleiche Prinzip gilt auch für die Variable der &amp;quot;for&amp;quot;-Schleife (diese kann natürlich jeden beliebigen Namen annehmen)  &lt;br /&gt;
* im Beispiel_1 steht die Variable &amp;quot;element&amp;quot; für die Elemente der Liste namens &amp;quot;liste&amp;quot;&lt;br /&gt;
* die Variable &amp;quot;element&amp;quot; steht zwar für alle Elemente der Liste, also “Python”, 1, 4.5 und True, aber nicht gleichzeitig &lt;br /&gt;
* im ersten Durchlauf der Schleife steht sie für das erste Element der Liste (&amp;quot;Python&amp;quot;), nun werden die Befehle der Schleife ausgeführt:&lt;br /&gt;
* print(element) wird im ersten Durchlauf also zu print(&amp;quot;Python&amp;quot;) &lt;br /&gt;
* im zweiten Durchlauf steht die Variable für das zweite Element (1), print(element) wird im zweiten Durchlauf also zu print(1) usw.&lt;br /&gt;
* der  darauf folgende Ausdruck &amp;quot;in&amp;quot; dient dazu die Liste, das Dictionary, den String etc. anzugeben, mit dessen Elemente die Schleife durchgeführt werden soll&lt;br /&gt;
* dementsprechend folgt darauf der Namen einer Liste, eines Dictionaries oder eines Strings (ein String kann durch eine Variable gespeichert sein oder direkt angegeben werden), daraufhin folgt ein Doppelpunkt&lt;br /&gt;
* die zur Schleife gehörenden Operationen sind dadurch gekennzeichnet, dass der Code  eingerückt ist  &lt;br /&gt;
&lt;br /&gt;
==== Ablauf der Schleife ==== &lt;br /&gt;
* es wird überprüft ob es ein Element gibt, wessen Wert die Variabel annehmen kann &lt;br /&gt;
* trifft das zu laufen die Befehl der Schleife ab, wobei die Variable immer für den entsprechenden Wert des Elements steht &lt;br /&gt;
* gibt es keine Elemente mehr, dessen Wert noch nicht angenommen wurde, bricht die Schleife ab&lt;br /&gt;
* somit läuft eine for-Schleife immer für jedes Element einmal ab und läuft so häufig ab wie es Elemente gibt (ohne Modifikationen s. unten)&lt;br /&gt;
&lt;br /&gt;
[[File:flowchart ''for''-Schleife.png|200px|thumb|center|flowchart ''for''-Schleife]]&lt;br /&gt;
&lt;br /&gt;
=== Anwendungsmöglichkeiten ===&lt;br /&gt;
&lt;br /&gt;
==== Ausgabe von Dictionaries ====&lt;br /&gt;
* einen großen Vorteil bringt die ''for''-Schleife bei der Ausgabe von Dictionaries &lt;br /&gt;
* da der Zugriff auf die Elemente in einem Dictionary über keys und nicht Indexzahlen erfolgt, ist die Ausgabe von Dictionaries über eine while Schleife sehr kompliziert und kann nicht in der Form s. Ausgabe von Listen mit ''while''-Schleife erfolgen&lt;br /&gt;
* die Ausgabe über die ''for''-Schleife ist sehr einfach und erfolgt wie bei der Ausgabe der Liste &lt;br /&gt;
* zu beachten ist, dass hier die Variable nicht den Wert der Elemente, sondern der keys aufnimmt&lt;br /&gt;
* schreibt man slo wie in Beispiel_2 die Variable in den ''print''-Befehl der Schleife, werden nur die keys des Dictionaries ausgegeben &lt;br /&gt;
&lt;br /&gt;
 #Beispiel_2: &lt;br /&gt;
 buch_1={&amp;quot;Buch&amp;quot;:&amp;quot;Der Herr der Ringe&amp;quot;, &amp;quot;Autor&amp;quot;:&amp;quot;Tolkien&amp;quot;, &amp;quot;Preis&amp;quot;:45}&lt;br /&gt;
 &lt;br /&gt;
 for element in buch_1: &lt;br /&gt;
     print(element)&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 Buch&lt;br /&gt;
 Autor&lt;br /&gt;
 Preis&lt;br /&gt;
&lt;br /&gt;
* um den Wert des entsprechenden keys ausgeben zu lassen, ist es notwendig die Variable als Index der Liste anzugeben (s. Beispiel_3)&lt;br /&gt;
 #Beispiel_3:&lt;br /&gt;
 buch_1={&amp;quot;Buch&amp;quot;:&amp;quot;Der Herr der Ringe&amp;quot;, &amp;quot;Autor&amp;quot;:&amp;quot;Tolkien&amp;quot;, &amp;quot;Preis&amp;quot;:45} &lt;br /&gt;
 &lt;br /&gt;
 for element in buch_1:&lt;br /&gt;
    print(buch_1[element])&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 Der Herr der Ringe&lt;br /&gt;
 Tolkien&lt;br /&gt;
 45&lt;br /&gt;
&lt;br /&gt;
* das klingt erstmal kompliziert, ergibt aber Sinn &lt;br /&gt;
* die Ausgabe von Dictionaries erfolgt über die Angabe des keys in eckigen Klammern hinter dem Namen des Dictionaries, dabei steht der key stellvertretend für das jeweilige Element der Liste &lt;br /&gt;
* da die Variable der ''for''-Schleife den Wert der keys aufnimmt, wird folglich die Variable in die eckigen Klammern hinter dem Namen des Dictionaries geschrieben&lt;br /&gt;
&lt;br /&gt;
== ''range''-Befehl ==&lt;br /&gt;
 #Befehl&lt;br /&gt;
 for element in range(Anzahl):&lt;br /&gt;
     befehl()&lt;br /&gt;
 &lt;br /&gt;
 #Beipiel_1: &lt;br /&gt;
 for element in range(10):&lt;br /&gt;
     print(element)&lt;br /&gt;
&lt;br /&gt;
output: &lt;br /&gt;
 0&lt;br /&gt;
 1&lt;br /&gt;
 2&lt;br /&gt;
 3&lt;br /&gt;
 4&lt;br /&gt;
 5&lt;br /&gt;
 6&lt;br /&gt;
 7&lt;br /&gt;
 8&lt;br /&gt;
 9&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Funktion === &lt;br /&gt;
* für die Wiederholung eines Vorgangs mit einer festen Anzahl an Wiederholungen&lt;br /&gt;
* ist auch mit ''while''-Schleife lösbar, wird durch ''range''-Befehl deutlich einfacher&lt;br /&gt;
&lt;br /&gt;
=== Syntax === &lt;br /&gt;
* hinter dem Ausdruck &amp;quot;range&amp;quot; kommt eine Klammer mit der einer Zahl&lt;br /&gt;
&lt;br /&gt;
==== range(stop) ==== &lt;br /&gt;
* schreibt man in den ''range''-Befehl nur eine Zahl, wird diese als Stoppwert genommen; automatisch ist 0 der Startwert als 1 die Schrittgröße (step)&lt;br /&gt;
&lt;br /&gt;
==== range(start, stop) ==== &lt;br /&gt;
* schreibt man in den range Befehl zwei Zahlen durch ein Komma getrennt, wird die erste Zahl als Startwert und die zweite als Stoppwert definiert(Stoppwert wird nicht ausgegeben); nimmt 1 als step an  &lt;br /&gt;
&lt;br /&gt;
==== range(start, stop, step) ==== &lt;br /&gt;
* schreibt man in den ''Range''-Befehl drei Zahlen, die jeweils mit einem Komma getrennt sind, wird die dritte Zahl als step definiert&lt;br /&gt;
&lt;br /&gt;
== ''append''-Befehl ==&lt;br /&gt;
&lt;br /&gt;
 #Befehl&lt;br /&gt;
 liste=[element_1,element_2]&lt;br /&gt;
 liste.append(element_3)&lt;br /&gt;
 &lt;br /&gt;
 #Beispiel_1: &lt;br /&gt;
 liste=[1,2,&amp;quot;Apfel&amp;quot;]&lt;br /&gt;
 liste.append(&amp;quot;Baum&amp;quot;)&lt;br /&gt;
 &lt;br /&gt;
 print(liste) &lt;br /&gt;
&lt;br /&gt;
output &lt;br /&gt;
 [1, 2, 'Apfel', 'Baum']&lt;br /&gt;
&lt;br /&gt;
=== Funktion ===&lt;br /&gt;
* fügt einer Liste ein Element hinzu &lt;br /&gt;
* wie in Beispiel_1 gezeigt, wird der Liste das Levent &amp;quot;Baum&amp;quot; hinzugefügt &lt;br /&gt;
&lt;br /&gt;
=== Syntax === &lt;br /&gt;
* hinter dem Namen der Liste folgt ein Punkt und der Ausdruck &amp;quot;append&amp;quot;, dahinter folg in Klammern das Element, welches der Liste hinzugefügt werden soll &lt;br /&gt;
* es ist auch möglich einer Liste mehrere Elemente hinzuzufügen, der Name der hinzuzufügenden Liste wird in den ''append''-Befehl geschrieben &lt;br /&gt;
* die Elemente müssen allerdings auch als Liste strukturiert sein (s.Beispiel_2) &lt;br /&gt;
&lt;br /&gt;
 #Beispiel_2:&lt;br /&gt;
 liste_1=[1,2,3,&amp;quot;Baum&amp;quot;]&lt;br /&gt;
 liste_2=[4,5,6,&amp;quot;Strauch&amp;quot;]&lt;br /&gt;
 liste_1.append(liste_2)&lt;br /&gt;
 &lt;br /&gt;
 print(liste_1)&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 [1, 2, 3, 'Baum', [4, 5, 6, 'Strauch']]&lt;br /&gt;
&lt;br /&gt;
* nun wurden zwar die Elemente der liste_2 der liste_1 hinzugefügt, allerdings als Liste in der Liste &lt;br /&gt;
* der Grund dafür ist, das der ''append''-Befehl einer Liste immer nur ein Element hinzufügt &lt;br /&gt;
* so wird eine Liste, die hinzugefügt werden soll, erst als ein einzelnes Element abgespeichert und dann hinzugefügt&lt;br /&gt;
* das Problem lässt sich einfach lösen, indem die Elemente der liste_2 einzeln und nacheinander der liste_1 hinzufügt werden, dafür eignet sich besonders gut eine ''for''-Schleife (s.Beispiel_3) &lt;br /&gt;
&lt;br /&gt;
 #Beispeil_3: &lt;br /&gt;
 liste_1=[1,2,3,&amp;quot;Baum&amp;quot;]&lt;br /&gt;
 liste_2=[4,5,6,&amp;quot;Strauch&amp;quot;]&lt;br /&gt;
 for element in liste_2: &lt;br /&gt;
     liste_1.append(element)&lt;br /&gt;
    &lt;br /&gt;
 print(liste_1)&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 [1, 2, 3, 'Baum', 4, 5, 6, 'Strauch']&lt;br /&gt;
&lt;br /&gt;
== ''if''-Befehl ==&lt;br /&gt;
&lt;br /&gt;
 #Befehl&lt;br /&gt;
 if Bedingung: &lt;br /&gt;
    Befehl &lt;br /&gt;
 &lt;br /&gt;
 #Beispiel: &lt;br /&gt;
 if 4 &amp;lt; 10: &lt;br /&gt;
     print(&amp;quot;4 ist kleiner als 10&amp;quot;)&lt;br /&gt;
&lt;br /&gt;
output &lt;br /&gt;
 4 ist kleiner als 10&lt;br /&gt;
&lt;br /&gt;
=== Funktion === &lt;br /&gt;
* der ''if''-Befehl macht es einem Computerprorgamm möglich auf verschiedene Ereignisse unterschiedlich zu reagieren &lt;br /&gt;
* diese Funktion hebt ein Programm von einer einfachen Rechenanleitung ab &lt;br /&gt;
&lt;br /&gt;
=== Syntax ===&lt;br /&gt;
* nach dem Ausdruck &amp;quot;if&amp;quot; folgt die Bedingung die überprüft werden soll, daraufhin ein Doppelpunkt &lt;br /&gt;
* die folgenden Kommandozeilen, die zum ''if''-Befehl gehören sind dadurch gekennzeichnet, dass sie versetzt sind &lt;br /&gt;
&lt;br /&gt;
=== Ablauf der Schleife ===&lt;br /&gt;
* nach dem Ausdruck &amp;quot;if&amp;quot; wird überprüft ob die darauf folgende Bedingung zutrifft&lt;br /&gt;
* trifft die Bedingung zu, werden die Befehle ausgeführt &lt;br /&gt;
* trifft die Bedingung nicht zu, werden die Befehle übersprungen &lt;br /&gt;
* so ist der Ablauf abhängig von bestimmten Bedingungen und ändert sich je nachdem welche Bedingungen erfüllt bzw. nicht erfüllt werden &lt;br /&gt;
&lt;br /&gt;
=== Bedingungen stellen ===&lt;br /&gt;
* die Gleichheit von zwei Werten lässt sich mit &amp;quot;==&amp;quot; überprüfen &lt;br /&gt;
* damit kann die Gleichheit von int, str, float und bool überprüft werden (s.Beipsiel_2)&lt;br /&gt;
&lt;br /&gt;
 #Befehl&lt;br /&gt;
 if Bedingung_1 == Bedingung_2: &lt;br /&gt;
    Befehl&lt;br /&gt;
 &lt;br /&gt;
 #Beispiel_2:&lt;br /&gt;
 a=1&lt;br /&gt;
 b=&amp;quot;hallo&amp;quot;&lt;br /&gt;
 c=True&lt;br /&gt;
 &lt;br /&gt;
 if a==1:&lt;br /&gt;
     print(a)&lt;br /&gt;
 if b==&amp;quot;hallo&amp;quot;:&lt;br /&gt;
     print(b)&lt;br /&gt;
 if c==True:&lt;br /&gt;
     print(c)&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 1&lt;br /&gt;
 hallo&lt;br /&gt;
 True&lt;br /&gt;
&lt;br /&gt;
* um zu überprüfen ob ein Wert größer oder kleiner als ein anderer ist, werden folgende Symbole verwendet:&lt;br /&gt;
&amp;lt;, &amp;lt;=  kleiner, kleiner gleich &lt;br /&gt;
&lt;br /&gt;
&amp;gt;, &amp;gt;=  größer, größer gleich &lt;br /&gt;
* die Ungleichheit lässt sich mit &amp;quot;!=&amp;quot; überprüfen &lt;br /&gt;
* mit diesen einfachen Bedingungen und dem ''if''-Befehl lässt sich ganz einfach ein kleines Ratespiel programmieren, welches abhängig von der Eingabe des Nutzers reagieren kann &lt;br /&gt;
&lt;br /&gt;
 #Beipiel_3: &lt;br /&gt;
 eingabe=eval(input(&amp;quot;Errate die richtige Zahl zwischen 1 und 10: &amp;quot;))&lt;br /&gt;
 zahl=8&lt;br /&gt;
 if eingabe==zahl: &lt;br /&gt;
     print(&amp;quot;du hast de richtige Zahl erraten&amp;quot;)&lt;br /&gt;
 if eingabe!=zahl: &lt;br /&gt;
    print (&amp;quot;leider falsch, versuche es nochmal&amp;quot;)&lt;br /&gt;
 if eingabe&amp;gt;zahl: &lt;br /&gt;
     print(&amp;quot;versuche eine kleinere Zahl&amp;quot;)&lt;br /&gt;
 if eingabe&amp;lt;zahl: &lt;br /&gt;
     print(&amp;quot;versuche eine größere Zahl&amp;quot;)&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==== Zusammengesetzte Bedingungen ====&lt;br /&gt;
* wenn mehrere Bedingungen gleichzeitig überprüft werden sollen, können diese durch drei Operatoren miteinander verknüpft werden &lt;br /&gt;
* das macht einen Code kürzer und übersichtlicher, weil nicht mehrer ''if''-Befehle ineinander geschrieben werden müssen&lt;br /&gt;
# &amp;quot;and&amp;quot; wird benutzt wenn zwei oder mehrere Bedingungen gleichzeitig zutreffen müssen &lt;br /&gt;
# &amp;quot;or&amp;quot; wird benutzt wenn eine von mehreren möglichen Bedingungen zutreffen muss&lt;br /&gt;
# &amp;quot;not&amp;quot; wird zur Verneinung genutzt (hier ist zu beachten, dass alles worauf sich das &amp;quot;not&amp;quot; beziehen soll in klammern gesetzt werden muss, sonst bezieht sich der Ausdruck nur auf das erste Element) &lt;br /&gt;
&lt;br /&gt;
 #Beispiel_4:&lt;br /&gt;
 zahl=6&lt;br /&gt;
 if zahl &amp;lt;10 and zahl &amp;gt;5: &lt;br /&gt;
     print(&amp;quot;richtig&amp;quot;)&lt;br /&gt;
 &lt;br /&gt;
 #anstatt&lt;br /&gt;
 if zahl &amp;lt;10:&lt;br /&gt;
     if zahl&amp;gt;5: &lt;br /&gt;
         print(&amp;quot;richtig&amp;quot;)&lt;br /&gt;
&lt;br /&gt;
=== ''else''-Befehl  ===&lt;br /&gt;
&lt;br /&gt;
 #Befehl &lt;br /&gt;
 if Bedingung: &lt;br /&gt;
    Befehl_1&lt;br /&gt;
 else: &lt;br /&gt;
    Befehl_2&lt;br /&gt;
 &lt;br /&gt;
 #Beispiel_1: &lt;br /&gt;
 eingabe=eval(input(&amp;quot;Errate die richtige Zahl zwischen 1 und 10: &amp;quot;))&lt;br /&gt;
 zahl=8&lt;br /&gt;
 &lt;br /&gt;
 if eingabe==zahl: &lt;br /&gt;
     print(&amp;quot;du hast de richtige Zahl erraten&amp;quot;)&lt;br /&gt;
 else: &lt;br /&gt;
 print(&amp;quot;das ist nicht die gesuchte Zahl&amp;quot;) &lt;br /&gt;
&lt;br /&gt;
==== Funktion ====&lt;br /&gt;
* erfüllt die Funktion von ''if not'' &lt;br /&gt;
* erspart dabei Arbeit, weil im Gegensatz zu 'if not' Operator, die Bedingungen, nicht extra im Befehl formuliert werden müssen &lt;br /&gt;
* der 'else'-Befehl schließt automatisch alle Bedingungen ein, die nicht vom ''if''-Befehl abgedeckt werden &lt;br /&gt;
&lt;br /&gt;
==== Syntax ====&lt;br /&gt;
* nach dem Ausdruck &amp;quot;else&amp;quot; folgt ein Doppelpunkt und der Befehl &lt;br /&gt;
* wenn die Bedingung des ''if''-Befehls nicht zutreffen, wird automatisch der ''else''-Befehl ausgeführt &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== ''elif''-Befehl === &lt;br /&gt;
&lt;br /&gt;
 #Befehl&lt;br /&gt;
 if Bedingung_1: &lt;br /&gt;
    Befehl_1&lt;br /&gt;
 elif Bedingung_2: &lt;br /&gt;
    Befehl_2 &lt;br /&gt;
 elif Bedingung_3: &lt;br /&gt;
    Befehl_3 &lt;br /&gt;
&lt;br /&gt;
==== Funktion ==== &lt;br /&gt;
* steht für &amp;quot;else if&amp;quot; &lt;br /&gt;
* ersetzt die Ineinanderschachtelungen von mehreren ''if''-Befehlen &lt;br /&gt;
* ein ''elif''-Befehl wird nur durchgeführt, wenn die vorangegangene ''if''-Bedingung nicht erfüllt wird&lt;br /&gt;
&lt;br /&gt;
==== Syntax ==== &lt;br /&gt;
* nach dem Ausdruck &amp;quot;elif&amp;quot; folgt die Bedingung, ein Doppelpunkt und der Befehl&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Funktionen == &lt;br /&gt;
&lt;br /&gt;
 #Befehl: &lt;br /&gt;
 def funktionsname (evtl. Übergabewerte): &lt;br /&gt;
        Befehl &lt;br /&gt;
 &lt;br /&gt;
 #Besipiel_1: &lt;br /&gt;
 def begrüßung():&lt;br /&gt;
     print(&amp;quot;hallo&amp;quot;)&lt;br /&gt;
 begrüßung()&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 hallo&lt;br /&gt;
&lt;br /&gt;
=== Funktion === &lt;br /&gt;
* ein Befehl kann als Funktion abgespeichert werden &lt;br /&gt;
* wird der Befehl in einem Programm häufiger verwendet, muss dieser nicht immer wieder erneut geschrieben werden, stattdessen muss nur die Funktion abgerufen werden &lt;br /&gt;
* erspart Zeit und sorgt für Übersichtlichkeit des Programms &lt;br /&gt;
* noch übersichtlicher wird ein Code, wenn man die Funktionen nicht im Hauptprogramm sondern anderen Daten abspeichern &lt;br /&gt;
&lt;br /&gt;
=== Syntax === &lt;br /&gt;
* nach dem Begriff &amp;quot;def&amp;quot; folg der Name der Funktion (sinnvoll sind Namen, die die Aufgabe der Funktion beschreiben) &lt;br /&gt;
* danach folgt eine runde Klammer, in die Klammer können Werte aus dem Hauptprogramm übernommen werden, z.B. wenn die Funktion eine Rechnung darstellt und im Laufe des Programms mit verschiedenen Werten diese Rechnung durchgeführt werden soll (s. Funktionen mit Argumenten) &lt;br /&gt;
* werden keine Werte übernommen, bleibt die Klammer leer &lt;br /&gt;
&lt;br /&gt;
=== Funktionen mit Argumenten === &lt;br /&gt;
* wird benutzt, wenn ein bestimmter Wert aus dem Hauptprogramm übernommen werden soll und es sich nicht immer um den gleichen Wert handelt &lt;br /&gt;
* die im Beispiel_1 leer geblieben Klammern, haben die Aufgabe einen Wert aus dem Hauptprogramm an die Funktion zu überreichen &lt;br /&gt;
* dabei schreibt man den Wert, der überreicht werden soll in die Klammer hinter den Funktionsnamen im Hauptprogramm --&amp;gt; der Wert wird als Argument bezeichnet &lt;br /&gt;
* in die Klammer hinter dem Funktionsnamen in der Funktion, schreibt man einen Variablennamen, der automatisch für den Wert aus dem Hauptprogramm steht &lt;br /&gt;
* stellvertretend für die Werte aus dem Hauptprogramm, kann mit dem Variablennamen ein Befehl geschrieben werden (s.Beispiel_2) &lt;br /&gt;
&lt;br /&gt;
 #Beispiel_2: &lt;br /&gt;
 def begrüßung(name): &lt;br /&gt;
     print(name, &amp;quot;sagt hallo&amp;quot;)&lt;br /&gt;
 begrüßung(&amp;quot;jack&amp;quot;)&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 jack sagt hallo&lt;br /&gt;
&lt;br /&gt;
* die Funktion hallo ist abhängig vom Argument name. Dieses Argument muss der Funktion beim Aufrufen gegeben werden, sonst funktioniert sie nicht&lt;br /&gt;
* der Funktion wird „Jack“ als Argument für Name übergeben&lt;br /&gt;
* es können nicht nur str, sondern auch int, float und alle weiteren Datentypen und Strukturen, einer Funktion übergeben werden &lt;br /&gt;
* es ist auch möglich Funktionen mit mehreren Argumenten zu benutzen, dafür werden die Argumente mit einem Komma voneinander getrennt (s.Beipiel_3) &lt;br /&gt;
&lt;br /&gt;
 #Beispeil_3: &lt;br /&gt;
 def begrüßung(name, zahl): &lt;br /&gt;
    print(&amp;quot;Hallo ich heiße&amp;quot;, name)&lt;br /&gt;
    print(&amp;quot;und bin&amp;quot;, zahl, &amp;quot;Jahre alt&amp;quot;)&lt;br /&gt;
 &lt;br /&gt;
 eingabe_1=input(&amp;quot;Gib hier dienen Namen ein: &amp;quot;)&lt;br /&gt;
 eingabe_2=eval(input(&amp;quot;Gib hier dein Alter ein: &amp;quot;))&lt;br /&gt;
 begrüßung(eingabe_1, eingabe_2)&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 Hallo ich heiße Jack  &lt;br /&gt;
 und bin 20 Jahre alt&lt;br /&gt;
&lt;br /&gt;
=== Funktionen mit Rückgabewerten: der ''return-Befehl === &lt;br /&gt;
&lt;br /&gt;
 #Befehl&lt;br /&gt;
 def funktionsname (evtl. Übergabewerte): &lt;br /&gt;
        Ergebnis=Befehl &lt;br /&gt;
        return(Ergebnis) &lt;br /&gt;
&lt;br /&gt;
 #Beispiel_2: &lt;br /&gt;
 def Rechnung(zahl): &lt;br /&gt;
     value=3*zahl**2&lt;br /&gt;
     return(value)&lt;br /&gt;
 Ergebnis=Rechnung(4)&lt;br /&gt;
 print(Ergebnis)&lt;br /&gt;
 &lt;br /&gt;
output&lt;br /&gt;
 48&lt;br /&gt;
&lt;br /&gt;
==== Funktion ====&lt;br /&gt;
* die Ergebnisse aus den Funktionen können dem Hauptprogramm übergeben werden um damit weiter arbeiten zu können &lt;br /&gt;
&lt;br /&gt;
==== Syntax ==== &lt;br /&gt;
* nach dem Schlüsselbegriff &amp;quot;return&amp;quot; folgt eine runde Klammer mit dem Wert der zurückgegeben werden soll &lt;br /&gt;
* dieser Wert selbst kann als Variable abgespeichert werden&lt;br /&gt;
&lt;br /&gt;
== Literatur ==&lt;br /&gt;
Michael Bonacina: Python 3 Programmieren für Einsteiger. 2. Auflage. BMU Verlag, Landshut 2019, ISBN: 978-3-96645-007-2&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=951</id>
		<title>Glossar</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=951"/>
		<updated>2021-09-30T10:16:18Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* L */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== A ==&lt;br /&gt;
[[3_Alignments#Alignments|Alignment]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Algorithmus]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Assembly]]: Bioinformatisches Verfahren, bei dem überlappende reads erst zu Contings und anschließend zu Scaffolds zusammengesetzt werden.&lt;br /&gt;
&lt;br /&gt;
== B ==&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_2:_Benjamini-Hochberg-Prozedur|Benjamini-Hochberg-Prozedur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_1:_Bonferroni-Korrektur|Bonferroni-Korrektur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[4.Burrows-Wheeler|Burrows-Wheeler Transformation]]&lt;br /&gt;
&lt;br /&gt;
== C ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Contiq]]: Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken &amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Sequenzabdeckung|Coverage]]: Die Anzahl der reads an einer beliebigen Stelle der Sequenz, die diese abdecken&lt;br /&gt;
&lt;br /&gt;
== D ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Dynamic programming]]&lt;br /&gt;
&lt;br /&gt;
== E ==&lt;br /&gt;
== F ==&lt;br /&gt;
[[1_Datenbanken#FASTA|FASTA-Format]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#FASTQ|FASTQ-Format]]: Textbasierte Methode zur Speicherung einer Sequenz (DNA/RNA). Dabei wird auch die Qualität der sequenzierten Base jeweils in einem ASCII Symbol vermerkt&lt;br /&gt;
&lt;br /&gt;
== G ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|gap penalty]]&lt;br /&gt;
&lt;br /&gt;
== H ==&lt;br /&gt;
== I ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Illumina_Sequencing_.282nd_Generation_Sequencing.29|Illumina]]&lt;br /&gt;
&lt;br /&gt;
== J ==&lt;br /&gt;
== K ==&lt;br /&gt;
== L ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Lander-Waterman-Modell|Lander-Waterman-Modell]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|Library]]: Pool von DNA-Fragmenten, der aus einer Probe generiert wurde&lt;br /&gt;
&lt;br /&gt;
== M ==&lt;br /&gt;
[[Microarrays]]&lt;br /&gt;
&lt;br /&gt;
== N ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|NGS]]: Next Generation Sequencing, Sammelbegriff für neuartige Sequenziermethoden, die einen höhere Durchsatz besitzen als die klassische Sangermethode. Dies ist möglich, da die Sequenzierungen parallel durchgeführt werden können &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#t-Test|Nullhypothese]]&lt;br /&gt;
&lt;br /&gt;
== O ==&lt;br /&gt;
== P ==&lt;br /&gt;
[[7_Multiples_Testen#P-Wert|p-value]]&lt;br /&gt;
&lt;br /&gt;
== Q ==&lt;br /&gt;
== R ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|reads]]: Aus der RNA-Seq. erhaltene Fragmente sequenzierter RNA. Diese können anschließend einem Refernezgenom zugeordnet werden.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[RNAseq|RNASeq]]: Sequenzierung des gesamten Transkriptoms einer Zelle durch NGS-Methoden. Dazu muss die mRNA durch Reverse Transkriptase in cDNA umgeschrieben werden. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#RPKM|RPKM]]: Reads per kilobase of transcript per Million mapped reads&lt;br /&gt;
&lt;br /&gt;
== S ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Scaffold]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3_Alignments#Smith-Waterman_Algorithmus|Smith-Waterman Algorithmus]]&lt;br /&gt;
&lt;br /&gt;
== T ==&lt;br /&gt;
[[7_Multiples_Testen#t-Test|t-Test]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TMM|TMM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TPM|TPM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[Transkriptom]]&lt;br /&gt;
&lt;br /&gt;
== U ==&lt;br /&gt;
== V ==&lt;br /&gt;
== W ==&lt;br /&gt;
== X ==&lt;br /&gt;
== Y ==&lt;br /&gt;
== Z ==&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2_Transkriptom_RNA_Seq_1&amp;diff=950</id>
		<title>2 Transkriptom RNA Seq 1</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2_Transkriptom_RNA_Seq_1&amp;diff=950"/>
		<updated>2021-09-30T10:06:54Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* Biologische Fragestellung */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
== Biologische Fragestellung ==&lt;br /&gt;
Das NAT8L Gen scheint im Metabolismus von Krebszellen eine Rolle zu spielen. Unser Projekt befasst sich mit Lungenkrebs. Daraus folgt die Frage: Ist NAT8L in Lungenkrebszellen erhöht exprimiert ? &amp;lt;br&amp;gt;&lt;br /&gt;
Die Frage impliziert weitere Überlegungen z.B. ob NAT8L essentiell für das Wachstum von Krebszellen ist und ob eine Inhibierung der NAT8L Expression die Tumorbildung hemmen würde. &lt;br /&gt;
&lt;br /&gt;
Um die Frage zu beantworten sind folgende drei Schritte notwendig: &amp;lt;br&amp;gt;&lt;br /&gt;
Schritt 1: &lt;br /&gt;
* Abfragen von Datenbanken (vielleicht wurden bereits ähnliche Experimente durchgeführt) &amp;lt;br&amp;gt;&lt;br /&gt;
Schritt 2: &lt;br /&gt;
* aus Datenbanken haben wir herausgefunden, dass NAT8L in Lungenkrebszellen erhöht expliziert wird &amp;lt;br&amp;gt;&lt;br /&gt;
Schritt 3: &lt;br /&gt;
* in einem Experiment soll versucht werden die Genexpression durch RNAi (RNA interference) zu silencen&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
[[File:Experiment_Skizze.jpg|400px|center|thumb]]&lt;br /&gt;
* aus zwei Tumorzellkulturen wird die mRNA extrahiert&lt;br /&gt;
* mit Hilfe der reversen Transkriptase wird cDNA transkribiert&lt;br /&gt;
* cDNA wird sequenziert&lt;br /&gt;
* Sequenzunterschiede können analysiert werden &amp;lt;br&amp;gt;&lt;br /&gt;
Dem Experiment liegt die Transkriptomanalyse zugrunde, welche eine quantitative und qualitative Bestimmung aller Transkriptionsaktivitäten ermöglicht. D.h. die Erfassung aller mRNA-Moleküle, wodurch auf die Aktivität bestimmter Gene unter bestimmten Bedingungen zurückschließen lässt. Eine Trannskriptomanalyse (also die Erfassung der Gesamtheit aller in einer Zelle unter einer bestimmten Bedingung erzeugten mRNA Moleküle) lässt sich auf verschiedene Weisen durchführen. Eine Möglichkeit ist ein DNA-Microarray (s. unten). Eine andere Möglichkeit ist die RNA-Sequenzierung. Zum Ablauf RNA-Sequenzierung vergleiche [[5_Transkriptom RNA Seq 2]]. Für beide Analysemethoden ist jedoch die gleiche sample preparation notwendig. &lt;br /&gt;
# mRNA Extraktion aus dem Organismus &lt;br /&gt;
# mRNA wird durch Reverse Transkriptase zu cDNA umgeschrieben &lt;br /&gt;
→ dann folgt die Expressionsanalyse durch genannte Methoden&lt;br /&gt;
&lt;br /&gt;
== Sequenzierung ==&lt;br /&gt;
Für die quantitativen und qualitativen Bestimmungen von Sequenzen bei der Transkriptomanalyse durch die RNA-Sequenzierung müssen, wie der Name schon verrät, die cDNA-Sequenzen sequenziert werden. Hierfür werden die NGS Methoden wie Illumina verwendet. &lt;br /&gt;
&lt;br /&gt;
=== '''N'''ext '''G'''eneration '''S'''equencing (NGS) ===&lt;br /&gt;
==== Illumina Sequencing (2nd Generation Sequencing) ====&lt;br /&gt;
&lt;br /&gt;
[[File:Cluster Generation.png|center|thumb|600px|1. Nach der Fragmentierung und Legierung der Adapter-Molekülen, heften sich die Fragmente an komplementäre Adaptersequenzen in der &amp;quot;flow cell&amp;quot;. 2. Die DNA biegt sich um den zweiten Adapter zu hybridisieren. 3-4. Die Polymerase synthetisiert den komplementären Strang. 5. Die Stränge denaturieren und bilden neue Brücken. Das Resultat sind Cluster der DNA-Stränge.]]&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Ergebnis der Illumina Sequenzierung:&lt;br /&gt;
* Länge der reads 50-600bp&lt;br /&gt;
* Fehlerrate ca. 0,1%&lt;br /&gt;
* humanes Genom kann 30x am Tag sequenziert werden&lt;br /&gt;
* Daten werden in FASTQ Format geliefert&lt;br /&gt;
&lt;br /&gt;
== FASTQ ==&lt;br /&gt;
Die NGS-Sequenzierergebnisse werden in diesem textbasierten-Format geliefert, dass zur Speicherung von DNA/RNA-Sequenzen dient.&lt;br /&gt;
Eine FASTQ-Datei ist folgendermaßen aufgebaut: &amp;lt;/br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 @ Identifier  # Sequenz identifier&lt;br /&gt;
 GATCTT        # Sequenz&lt;br /&gt;
 +             # optionale Beschreibung&lt;br /&gt;
 !'CC'*+*!?    # Qualität jedes Nukleotids (Zahlenwert repräsentiert durch [https://de.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange#ASCII-Tabelle ASCII Tabelle])&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Problem ===&lt;br /&gt;
Viele kurze reads, die in einen Zusammenhang gebracht werden müssen! Um Lücken in der Sequenz zu vermeiden, muss die Sequenziertiefe angepasst werden.&lt;br /&gt;
&lt;br /&gt;
== Microarrays ==&lt;br /&gt;
In Zuge dieser Vorlesung wird unter Microarrays die DNA-Chip Microarray-Methode verstanden. Mit dieser molekularbiologischen Methode lässt sich der Grad der Genexpression in einem Organismus von einer großen Anzahl an Genen gleichzeitig messen. Es wird also gemessen, welche Gene unter welchen Bedingungen wie stark aktiv sind. Stellt Damit eine alternative zur RNA-Seq. dar, bei der die Auswertung mit Hilfe von NGS erfolgt. &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Ablauf ===&lt;br /&gt;
Auf einer Oberfläche z.B. Glas befinden sich in einer bestimmten Anordnung immobilisierte DNA-Fragmente, so dass die Sequenz der DNA-Fragmente an jeder Position bekannt ist. Diese kurzen Oligonucleotide sind Sequenzabschnitte bekannter Gene des zu untersuchenden Organismus und deshalb komplementär zu cDNA-Sequenzen, dessen qualitative und quantitative Expression überprüft werden soll. Wobei sich nicht nur um ein Oliginukleotid sondern um eine große Anzahl der selben Oligonucleotide auf einen spot handelt. Nach der sample preparation erhält man cDNA. Die einzelsträngige cDNA ist floureszens markiert. Die Markierung kann z.B. durch die Verwendung von bereits floureszenzmarkierten dNTPs während der cDNA-Synthese erfolgen. Die cDNA der Probe wird auf den Chip aufgetragen und hybridisiert mit den komplementären Sequenzen. Nach der Fixierung werden die ungebundenen cDNA-Stränge heruntergewaschen. Überall dort wo dann Floureszenz zu messen ist, hat die cDNA an die komplementäre Oligonucleotid gebunden. Weil bekannt ist an welcher Stelle, welches Gensequenzoligonukleotid immobilisiert ist, kann so darauf geschlossen werden, welche Gene im untersuchten Organsimus exprimiert wurden. Die Intensität der Floureszenz korreliert mit der Anzahl an gebundenen cDNA Strängen pro Spot, wass wiederum mit dem Expressionslevel des Gens korreliert. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Hauptsächlich werden sie genutzt um mehrer Proben gleichzeitig zu Vergleichen. Wobei es sich um den vergleich der Genexpressionsmuster unter versch. Bedingungen handelt. &lt;br /&gt;
Man unterscheidet dabei zwei Herangehensweisen: &amp;lt;br&amp;gt;&lt;br /&gt;
One-color technique: &amp;lt;br&amp;gt;&lt;br /&gt;
Die cDNA von zwei verscheiden Proben werden mit unterschiedlichen Farben markiert. Die Proben werden jeweils auf ein Mikroarray gegeben und hybridisieren dort. Die Auswertung erfolgt indem die Bilder der Microarrays übereinander gelegt werden. Dort wo nur cDNA einer Probe gebunden hat, ist die entsprechende Farbe der Probe zu beobachten, dort wo beide gebunden haben, ist eine Farbe zu beobachten, die sich aus der Mischung beider einzelnen Probenfarben ergibt. &amp;lt;br&amp;gt;&lt;br /&gt;
Two-color technique: &amp;lt;br&amp;gt;&lt;br /&gt;
Die cDNA von zwei verschiedenen Proben werden mit unterschiedlichen Farben markiert. Die zwei Proben werden dann zusammengemsicht und auf einen DNA Chip gegeben und hybridisieren dort kompetitiv. Dort wo nur cDNA einer Probe gebunden hat, ist die entsprechende Farbe der Probe zu beobachten, dort wo beide gebunden haben, ist eine Farbe zu beobachten, die sich aus der Mischung beider einzelnen Probenfarben ergibt. &lt;br /&gt;
&lt;br /&gt;
[[File:Cdnaarray.jpg|thumb|center|Ausschnitt aus einem cDNA-Microarraychip]]&lt;br /&gt;
==== Nachteile ====&lt;br /&gt;
Die Microarray-Technologie tritt heutzutage etwas in den Hintergrund, da die Methode einigen Einschränkungen unterliegt. Zum einen löst das Microarray die Sequenz nicht auf die Einzelbase auf, weshalb Mutanten und Splicevarianten oftmals nicht bestimmt werden können. Dies liegt daran, dass auch Sequenzen hybridisieren, die nicht 100% übereinstimmen. Außerdem beruht die Methode auf optischer Messung, was bedeutet, dass ein gewisses Maß an Hintergrundrauschen unvermeidbar ist und eine Messuntergrenze besteht. Somit kann es vorkommen, dass geringe Mengen an bestimmten Sequenzen nicht nachgewiesen werden können. Diese Methode besitzt zudem eine Messobergrenze, denn wenn alle Sonden in einem Spot hybridisiert haben, kann weitere komplementäre cDNA nicht binden und verfällt wenn sie herunter gewaschen wird. Zudem können nur Proben von  Organismen verwendet werden, bei denen die Sequenz bereits bekannt ist.&lt;br /&gt;
&lt;br /&gt;
== Assembly ==&lt;br /&gt;
Assembly ist ein Bioinformatisches Verfahren, bei dem überlappende reads zu Contiqs und anschließend zu Scaffolds zusammengesetzt werden. Wenn das Genom bereits bekannt ist können die Scaffolds an ein Referenzgenom aligned werden, wobei man diese Art der Assemblierung als Alignment oder Assemblierung mit Hilfe eines Referenzgenoms bezeichnet. Liegt keine Referenz vor, bezeichnet man sie als de novo Assemblierung. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Assembly.jpg|600px|center|thumb]]&lt;br /&gt;
&lt;br /&gt;
Contiq: Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken.&lt;br /&gt;
&lt;br /&gt;
Scaffold: Bestehend aus Contiqs und Lücken (auch Supercontiqs genannt); definieren die Reihenfolge, Orientierung und Größe der Lücken zwischen den Contiqs.&lt;br /&gt;
&lt;br /&gt;
Beim NGS wird eine gewünschte Target-Sequenz mithilfe der Shotgun-Methode sequenziert, sodass viele kleine DNA-Fragmente (reads) entstehen. Diese sind vollkommen ungeordnet und in keiner Weise miteinander in Bezug gesetzt. Durch das Assembly wird die eigentliche Sequenz aus den erhaltenen reads rekonstruiert und zusammengesetzt. Da NGS heutzutage vollem bei größeren Sequenzierungen hauptsächlich angewendet werden, ist immer eine Assemblierung des reads notwendig.&lt;br /&gt;
&lt;br /&gt;
== Lander-Waterman-Modell ==&lt;br /&gt;
* stellt die statistische Wahrscheinlichkeit für das Auftreten von gaps dar&lt;br /&gt;
* dient somit der Errechnung nicht abgedeckter Basenpaare bei einer Sequenzierung&lt;br /&gt;
&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
P&amp;lt;sub&amp;gt;[nicht abgedecktes Bp]&amp;lt;/sub&amp;gt; = e&amp;lt;sup&amp;gt;&amp;lt;big&amp;gt;-c&amp;lt;/big&amp;gt;&amp;lt;/sup&amp;gt;&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
* P gibt die Anzahl an Basenpaaren an nach denen statistisch ein gap erwartet wird &lt;br /&gt;
* dabei ist C die Coverage, also die Anzahl an reads an einer beliebigen Stelle der Sequenz, die diese Stelle abdecken &lt;br /&gt;
* rechnet man mit der gegeben Formel für P, erhält man erstmal die Wahrscheinlichkeit für das Auftreten eines gaps, bei einer bestimmten Coverage&lt;br /&gt;
* um die tatsächliche Anzahl an bp zu bekommen nach der statistisch ein gap auftritt, ist es notwenndig&lt;br /&gt;
&amp;lt;math&amp;gt;  \frac{1}{P} &amp;lt;/math&amp;gt; zu teilen &lt;br /&gt;
&lt;br /&gt;
G: Länge der Genomsequenz &amp;lt;/br&amp;gt;&lt;br /&gt;
N: Anzahl der reads &amp;lt;/br&amp;gt;&lt;br /&gt;
L: durchschnittliche Länge der reads &amp;lt;/br&amp;gt;&lt;br /&gt;
C: Coverage (Abdeckung) &amp;lt;/br&amp;gt;&lt;br /&gt;
&amp;lt;/br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt; C= \frac{N*L}{G} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Beispiele:&amp;lt;/br&amp;gt;&lt;br /&gt;
C=10 →  1 Gap in 22000 Bp  &lt;br /&gt;
&lt;br /&gt;
C=22 →  1 Gap in 3,6*10&amp;lt;sup&amp;gt;9&amp;lt;/sup&amp;gt; Bp     &lt;br /&gt;
&lt;br /&gt;
C=30 → So tief, dass quasi alles überdeckt wird&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=949</id>
		<title>6 Normalisierungen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=6_Normalisierungen&amp;diff=949"/>
		<updated>2021-09-29T09:00:55Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* Normalisierungen */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&lt;br /&gt;
=Normalisierungen=&lt;br /&gt;
Unter Normalisierung versteht man in der Biologie die Verringerung von Verzerrungen innerhalb eines Datensatzes. Systematische Verzerrungen sind z.B. verschiedene Durchführungsrunden, unterschiedliche Bedingungen, Laborausstattung, Experimentatoren ect.&lt;br /&gt;
Auch die heterologe Geneigenschaften können zu unterschiedlichen Ergebnissen bei eigentlich gleicher Genexpression führen, wie z.B. Genlänge.&lt;br /&gt;
Normalisierungen der RNASeq-Daten sind deshalb notwendig, um diese vergleichen. zu können und die tatsächliche Genexpression quantifizieren zu können. &lt;br /&gt;
&lt;br /&gt;
==RPKM==&lt;br /&gt;
RPKM steht für 'Reads per kilobase of transcript per Million mapped reads' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; RPKM =  \frac{ c_\text{i}}{L_\text{i} \cdot N} &amp;lt;/math&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i' &lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in kbp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
  &amp;lt;math&amp;gt;   \frac{ c_\text{i}}{L_\text{i}} &amp;lt;/math&amp;gt;  → Normalisierung der Genlänge &amp;lt;br&amp;gt;&lt;br /&gt;
  &amp;lt;math&amp;gt; L_\text{i} \cdot N &amp;lt;/math&amp;gt; → Normalisierung der Sequenziertiefe &lt;br /&gt;
Je höher der RPKM-Wert ist, desto höher ist die Genexpression. &amp;lt;br&amp;gt;&lt;br /&gt;
RPKM-Werte können gut zum Vergleich der Genexpressionen innerhalb einer Probe genutzt werden, jedoch sind sie nicht dafür geeignet mehrere Experimente bzw. Proben miteinander zu vergleichen.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:'''&lt;br /&gt;
&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt; N=6*10^6 reads &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (A) =  \frac{12}{0,6 kbp \cdot 6 \cdot 10^6} = 3,33 \cdot 10^{-6}  &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (B) =  \frac{24}{1,1 kbp \cdot 6 \cdot 10^6} = 3,64  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;math&amp;gt; RPKM (C) =  \frac{11}{1,4 kbp \cdot 6 \cdot 10^6} = 1,31  \cdot 10^{-6} &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Durch die Normalisierung der Expressionsstärken können diese nun miteinander vergleichen werden.In diesem Beispiel wird Gen B am stärksten exprimiert und Gen C am schwächsten.&lt;br /&gt;
&lt;br /&gt;
==TPM==&lt;br /&gt;
TPM steht für 'Transcripts per Million' und ist eine Normalisierungsmethode für Expressionsstärken. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
|&amp;lt;math&amp;gt;  TPM =  \frac{ c_\text{i}}{L_\text{i}}  \cdot  \dfrac {1}{\sum_\text{n} \dfrac {c_\text{n}}{L_\text{n}}}  \cdot 10^6 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt; || c&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Anzahl an ausrichtbaren reads für ein Transkript 'i'&amp;lt;br&amp;gt;&lt;br /&gt;
L&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; = Länge des Transkripts/Gens 'i' in bp &amp;lt;br&amp;gt;&lt;br /&gt;
N = Gesamtanzahl an ausrichtbaren reads in Millionen&lt;br /&gt;
|} &lt;br /&gt;
Wenn 1 Millionen Transkripte sequenziert würden, wäre TPM&amp;lt;sub&amp;gt;i&amp;lt;/sub&amp;gt; die Anzahl an Transkripten des Types 'i'. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Beispiel:''' &amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Beispiel Probe.png|Beispiel Probe]] &amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (A) =  \frac{ 12}{600}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 402614 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (B) =  \frac{ 24}{1100}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 439216 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*&amp;lt;math&amp;gt;  TPM (C) =  \frac{ 11}{1400}  \cdot  \dfrac {1}{ \dfrac {12}{600} +  \dfrac {24}{1100} + \dfrac {11}{1400}}  \cdot 10^6  = 158170 &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Nach der Normalisierung ist ein Vergleich der Genexpressionen möglich. Das Ergebnis gibt an, wie viele Transkripte der Gene entstehen würden, wenn 1 Millionen Transkripte sequenziert werden würden. So würde man z.B. für Gen B 429216 Transkripte erhalten und für Gen C 158170 Transkripte, somit wird Gen B stärker exprimiert, als Gen C. Die Summe der reads ergibt 1 Million.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Probleme von RPKM und TPM:'''&lt;br /&gt;
&lt;br /&gt;
Die beiden Methoden sind nur gut geeignet, um Expressionswerte bzw. Expressionslevel innerhalb einer Probe zu vergleichen.Von sehr heterologen Expressionsprofilen zwischen zwei Proben können identische Genexpressionen fälschlicherweise als unterschiedlich erkannt werden.&lt;br /&gt;
&lt;br /&gt;
Lösung: TMM als Normalisierungsmethode zwischen Proben&lt;br /&gt;
&lt;br /&gt;
==TMM==&lt;br /&gt;
TMM steht für 'Trimmed mean of M-values normalization method'.&amp;lt;br&amp;gt;&lt;br /&gt;
*Gesamtexpressionsstärke pro Probe wird bestimmt, um einzelne Genexpressionen zu bestimmen. &lt;br /&gt;
*Das Expressionsverhältnis zwischen zwei Bedingungen für ein Gen 'g' wird bestimmt.&lt;br /&gt;
*Genexpressionen von zwei Proben mit unterschiedlichen Bedingungen (z.B. krank und gesund) können miteinander verglichen werden.&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''1.''' Bestimmung des '''Gewichtungsfaktors''' für das Expressionsverhältnis für Gen 'g' zwischen Probe 'k' ' und 'k'. Dabei werden kleinere Werte verstärkt und große abgeschwächt. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} =  \frac{ N_\text{k} - Y_\text{gk}}{N_\text{k} \cdot Y_\text{gk}}  +  \frac{ N_\text{k`} - Y_\text{gk`}}{N_\text{k`} \cdot Y_\text{gk`}} &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''2. Mittelwert aller Expressionsverhältnisse'''  wird berechnet. &amp;lt;br&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = log_2  \dfrac { \dfrac {Y_\text{gk}}{N_\text{k}}}{ \dfrac {Y_\text{gk`}}{N_\text{k`}}}  &amp;lt;/math&amp;gt; || Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; = Beobachtete Anzahl an reads für Gen 'g' und Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
N&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt; = Gesamtanzahl an reads für Probe 'k' &amp;lt;br&amp;gt;&lt;br /&gt;
k' = 2. Probe (Referenz-Bedingung)&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''3. Gewichtete Mittelwerte aller Expressionsverhältnisse''' können berechnet werden. Einsetzen der in 1. und 2. ermittelten Werte.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;div align=&amp;quot;center&amp;quot;&amp;gt; &amp;lt;math&amp;gt; TMM = 2^{log_2 (TMM_\text{k}^\text{k`})} &amp;lt;/math&amp;gt;&amp;lt;/div&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Gesamt:''' &lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Formel               !! Parameter&lt;br /&gt;
|-&lt;br /&gt;
| &amp;lt;math&amp;gt; log_2 (TMM_\text{k}^\text{k`}) =  \frac{ \underset {g \in G}{\sum}   W_\text{gk}^\text{k´} \cdot M_\text{gk}^\text{k´}} { \sum_{g \in G} W_\text{gk}^\text{k´}} &amp;lt;/math&amp;gt; || &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Mittelwerte aller Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;  W_\text{gk}^\text{k`} = &amp;lt;/math&amp;gt; Gewichtungsfaktor der Expressionsverhältnisse &amp;lt;br&amp;gt;&lt;br /&gt;
G = Set aller Gene&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Bedingungen für dieses Verfahren:''' &amp;lt;br&amp;gt;&lt;br /&gt;
* Y&amp;lt;sub&amp;gt;gk&amp;lt;/sub&amp;gt; , Y&amp;lt;sub&amp;gt;gk'&amp;lt;/sub&amp;gt; &amp;gt; 0&lt;br /&gt;
* Die oberen und unteren 30 % der &amp;lt;math&amp;gt; M_\text{gk}^\text{k`} &amp;lt;/math&amp;gt; Werte werden nicht berücksichtigt&lt;br /&gt;
* Die 5 % am höchsten und niedrigsten exprimierten Gene werden nicht berücksichtigt&lt;br /&gt;
&lt;br /&gt;
== Beispielrechnung ==&lt;br /&gt;
 Gen       Zustand 1[bp]         Zustand 2[bp]&lt;br /&gt;
 A         200                   600&lt;br /&gt;
 B         600                   0 &lt;br /&gt;
 C         800                   960&lt;br /&gt;
 D         400                   480&lt;br /&gt;
 &lt;br /&gt;
 Summe     2000                  1680&lt;br /&gt;
&lt;br /&gt;
 Folgende Dinge gelten nun:&lt;br /&gt;
 * TMM braucht immer einen Referenzwert (hier: Zustand 1); Wenn man mehrere Proben hätte, könnte man diese alle an Zustand 1 messen.&lt;br /&gt;
&lt;br /&gt;
 * Zuerst normalisiert man die Counts innerhalb der Probe&lt;br /&gt;
     Ya/N                         Yb/N&amp;lt;br&amp;gt;&lt;br /&gt;
 A   &amp;lt;math&amp;gt;\frac{200}{2000}=0,1&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{240}{1680}=0,143&amp;lt;/math&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;\frac{600}{2000}=0,3&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{0}{1680}=0&amp;lt;/math&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;\frac{800}{2000}=0,4&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{960}{1680}=0,571&amp;lt;/math&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;\frac{400}{2000}=0,2&amp;lt;/math&amp;gt;                 &amp;lt;math&amp;gt;\frac{2480}{1680}=0,286&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 * Mittelwert der Expressionsverhältnisse&lt;br /&gt;
          Ma/b                         &lt;br /&gt;
 A   &amp;lt;math&amp;gt;log_{2} \frac{0,143}{0,1}=0,516&amp;lt;/math&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt;log_{2} \frac{0}{0,3}= -Inf &amp;lt;/math&amp;gt; &amp;lt;br&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt;log_{2} \frac{0,571}{0,4}=0,513&amp;lt;/math&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt;log_{2} \frac{0,286}{0,2}=0,516&amp;lt;/math&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
 *'''kleiner Praxistipp von eurem Admin''': &amp;lt;math&amp;gt;log_{2}&amp;lt;/math&amp;gt; ist der Logarithmus von 2, Es ist nicht der natürliche log, es ist nicht ln, es ist nichts mit eulerscher Zahl oder was eure Taschenrechner sonst noch so hergeben. Also sucht eine Funktion, in der ihr die Basis des log eintragen könnt und gebt dort eine 2 ein. &lt;br /&gt;
&lt;br /&gt;
 *Nun kommt der Gewichtungsfaktor ins Spiel&lt;br /&gt;
                Wa/b&lt;br /&gt;
 A   &amp;lt;math&amp;gt; \frac{1680-240}{1680*240} + \frac{2000-200}{2000*200}=0,081&amp;lt;/math&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
 B   &amp;lt;math&amp;gt; \frac{1680-0}{1680*0} + \frac{2000-600}{2000*600}= -Inf &amp;lt;/math&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
 C   &amp;lt;math&amp;gt; \frac{1680-960}{1680*960} + \frac{2000-800}{2000*800}=0,0012&amp;lt;/math&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
 D   &amp;lt;math&amp;gt; \frac{1680-480}{1680*480} + \frac{2000-400}{2000*400}=0,0035&amp;lt;/math&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
 '''Summe der Gewichtung 0,0128'''&lt;br /&gt;
&lt;br /&gt;
 *Nun werden die Mittelwerte der Expressionsverhältnisse gewichtet (durch den Gewichtungsfaktor)&lt;br /&gt;
 &lt;br /&gt;
 A   0,516 * 0,081  = 0,0042&lt;br /&gt;
 B   -&lt;br /&gt;
 C   0,513 * 0,0012 = 0,0006&lt;br /&gt;
 D   0,516 * 0,0018 = 0,0018&lt;br /&gt;
 Summe                0,0066&lt;br /&gt;
&lt;br /&gt;
 Nun wird TMM berechnet:&amp;lt;br&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{\text{Summe der gewichteten Mittelwerte der Expressionsverhältnisse}}{\text{Summe Gewichtungsfaktoren}}=log_{2}(TMM)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;math&amp;gt;\frac{0,0066}{0,0128}=0,51=log_{2}(TMM)&amp;lt;/math&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
 * Jetzt noch die Formel umsetzen:&lt;br /&gt;
 &amp;lt;math&amp;gt;log_{2}(TMM)= x&amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{x} = TMM &amp;lt;/math&amp;gt;&lt;br /&gt;
 &amp;lt;math&amp;gt;2^{0,51} = 1,4296 &amp;lt;/math&amp;gt;&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2.Datentypen_und_Datenstrukturen&amp;diff=948</id>
		<title>2.Datentypen und Datenstrukturen</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2.Datentypen_und_Datenstrukturen&amp;diff=948"/>
		<updated>2021-09-29T08:58:02Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* Erweiterung eines Tupels */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;__TOC__&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Datentypen ==&lt;br /&gt;
&lt;br /&gt;
In Python unterscheidet man vier verschiedene Datentypen (Klassen):&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Datentyp !! Abkürzung !! Bedeutung  !! Beispiel&lt;br /&gt;
|-&lt;br /&gt;
| String || str || Zeichenkette || &amp;quot;abc&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
| Integer || int || Ganze Zahl || 1&lt;br /&gt;
|-&lt;br /&gt;
| Float || float || Dezimalzahl || 1.0&lt;br /&gt;
|-&lt;br /&gt;
| Boolean || bool || Wahrheitsgehalt || True, False&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
Der Datentyp kann durch den ''type''-Befehl abgefragt werden.&lt;br /&gt;
&lt;br /&gt;
== Datenstrukturen ==&lt;br /&gt;
&lt;br /&gt;
Man unterscheidet zwischen drei verscheiden Datenstrukturen: &lt;br /&gt;
Listen, Dictionary und Tupel. Alle diese Datenstrukturen stellen Organisationsformen&lt;br /&gt;
von Daten in Python dar. Das heißt sie erleichtert vor allem die Handhabung größerer Datenmengen,&lt;br /&gt;
indem sie diese in geeigneter Form darstellen und speichern. &lt;br /&gt;
Sie unterscheide sich jedoch in ihrem Aufbau und ihren spezifischen Funktionen.&lt;br /&gt;
&lt;br /&gt;
=== Listen ===&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 #Befehl:&lt;br /&gt;
 liste= [&amp;quot;string&amp;quot;,variable,1, 2.0,True] &lt;br /&gt;
 &lt;br /&gt;
 #Beispiel_1:&lt;br /&gt;
 tier_1=[&amp;quot;Hund&amp;quot;,100,399,99,True]&lt;br /&gt;
 tier_2=[&amp;quot;Katze&amp;quot;,60,249,99,True]&lt;br /&gt;
 tier_3=[&amp;quot;Fisch&amp;quot;,3,1 ,50,False]&lt;br /&gt;
 &lt;br /&gt;
 print(tier_1)&lt;br /&gt;
 print(tier_2)&lt;br /&gt;
 print(tier_3)&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 ['Hund', 100, 399, 99, True]&lt;br /&gt;
 ['Katze', 60, 249, 99, True]&lt;br /&gt;
 ['Fisch', 3, 1, 50, False]&lt;br /&gt;
&lt;br /&gt;
==== Funktion ====&lt;br /&gt;
* haben dieselbe Funktion wie Listen im realen Leben &lt;br /&gt;
* mit Listen können mehrere Werte unter einem Namen abgespeichert werden&lt;br /&gt;
* macht ein Programmcode übersichtlicher und erleichtert die Arbeit, weil nicht jeder einzelne Wert mit einem eigenen Variablennamen gespeichert werden muss&lt;br /&gt;
&lt;br /&gt;
==== Syntax ====&lt;br /&gt;
* die Liste erhält einen Namen, welcher wie eine Variable durch ein Gleichheitszeichen den Elementen der Liste zugeordnet wird&lt;br /&gt;
* die Elemente der Liste werden in eckige Klammer gesetzt und müssen mit einem Komma voneinander getrennt werden &lt;br /&gt;
* in einer Liste können alle unterschiedlichen Datentypen vorkommen&lt;br /&gt;
&lt;br /&gt;
===== Liste ausgeben lassen =====&lt;br /&gt;
* die ganze Liste lässt sich durch einen print-Befehl ausgeben (s. Beispiel_1)&lt;br /&gt;
&lt;br /&gt;
====== einzelne Elemente der Liste ausgeben lassen ======&lt;br /&gt;
* auch einzelne Elemente der Liste können ausgegeben werden (s. Beispiel_2)&lt;br /&gt;
* dabei wird die Position des auszugebenden Elements durch eine Indexzahl in eckigen Klammern nach dem Listennamen angegeben &lt;br /&gt;
* Achtung: bei Python wird das Zählen bei 0 gestartet, d.h. das erste Element in der Liste besitzt die Position 0&lt;br /&gt;
* es kann auch von hinten gezählt werden, dabei besitzt das erste Element (welches von vorne gezählt das letzte wäre) die Position -1 usw.&lt;br /&gt;
&lt;br /&gt;
====== Bereich der Liste ausgeben lassen  ======&lt;br /&gt;
* es lässt sich auch ein Bereich der Liste ausgeben, wobei die Positionen der Elemente durch ein Doppelzeichen getrennt werden (s.Beispiel_2)&lt;br /&gt;
* die erste Indexzahl schließt die Position des Elements ein,welche ausgegeben wird &lt;br /&gt;
* die zweite gibt die Position des Elements an, welches nicht mehr im Bereich liegt und demnach nicht ausgegeben wird &lt;br /&gt;
* um die Syntax des Befehls zu verstehen, ist es sinnvoll, die verschiedenen Möglichkeiten einmal selbst auszuprobieren und die Aufgaben 4 und 5 auf dem Aufgabenblatt zu bearbeiten &lt;br /&gt;
&lt;br /&gt;
 #Befehl:&lt;br /&gt;
 print(liste[Position])&lt;br /&gt;
 &lt;br /&gt;
 #Beispiel_2:&lt;br /&gt;
 tier_1=[&amp;quot;Hund&amp;quot;,100,399,99,True]&lt;br /&gt;
 &lt;br /&gt;
 print(tier_1[0])&lt;br /&gt;
 print(tier_1[1])&lt;br /&gt;
 print(tier_1[-1])&lt;br /&gt;
 print(tier_1[0:4])&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 Hund&lt;br /&gt;
 100&lt;br /&gt;
 True&lt;br /&gt;
 ['Hund', 100, 399, 99]&lt;br /&gt;
&lt;br /&gt;
===== Liste verändern =====&lt;br /&gt;
* wie Variablen sind auch Listen veränderbar, es können Elemente hinzugefügt, geändert und sogar gelöscht werden &lt;br /&gt;
&lt;br /&gt;
====== Element in Liste verändern ======&lt;br /&gt;
* Elemente der Liste lassen sich verändern, sowie auch der Wert von Variablen neu definiert werden kann &lt;br /&gt;
* dafür schreibt man den Namen der Liste, dahinter eine Indexzahl in eckigen Klammern, wobei die Indexzahl die Position des zu verändernden Elements angibt&lt;br /&gt;
* die Zuweisung des neuen Werts erfolgt durch ein Gleichheitszeichen und den neuen Wert, den das Element der Liste annehmen soll (s.Beispiel_3)&lt;br /&gt;
&lt;br /&gt;
 #Befehl:&lt;br /&gt;
 liste[Position]= neuer Wert&lt;br /&gt;
 &lt;br /&gt;
 #Beispiel_3:&lt;br /&gt;
 tier_1=[&amp;quot;Hund&amp;quot;,100,399,99,True]&lt;br /&gt;
 print(tier_1)&amp;lt;br&amp;gt;&lt;br /&gt;
 tier_1[0]=&amp;quot;Tiger&amp;quot;&lt;br /&gt;
 tier_1[1]=500&lt;br /&gt;
 print(tier_1)&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 ['Hund', 100, 399, 99, True]&lt;br /&gt;
 ['Tiger', 500, 399, 99, True]&lt;br /&gt;
&lt;br /&gt;
====== Element zur Liste hinzufügen ======&lt;br /&gt;
* Listen können erweitert werden &lt;br /&gt;
* dazu schreibt man den Namen der Liste ein Gleichheitszeichen, erneut den Namen der Liste, ein „+“ und das Element das hinzugefügt werden soll in eckigen Klammern (s.Beispiel_4)&lt;br /&gt;
&lt;br /&gt;
 #Befehl:&lt;br /&gt;
 liste=liste + [neues Element]&lt;br /&gt;
 &lt;br /&gt;
 #Beispiel_4:&lt;br /&gt;
 tier_1=[&amp;quot;Hund&amp;quot;,100,399,99,True]&lt;br /&gt;
 print(tier_1)&amp;lt;br&amp;gt;&lt;br /&gt;
 tier_1=tier_1+[&amp;quot;Elefant&amp;quot;]&lt;br /&gt;
 print(tier_1)&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 ['Hund', 100, 399, 99, True]&lt;br /&gt;
 ['Hund', 100, 399, 99, True, 'Elefant']&lt;br /&gt;
&lt;br /&gt;
====== Element aus Liste löschen ======&lt;br /&gt;
* Elemente lassen sich mit dem del -Befehl aus der Liste entfernen (s.Beispiel_5)&lt;br /&gt;
* nach „del“ folgt der Listenname und die Position des zu löschenden Elements in eckigen Klammern &lt;br /&gt;
&lt;br /&gt;
 Befehl:&lt;br /&gt;
 del liste[]&lt;br /&gt;
 &lt;br /&gt;
 #Beispiel_5:&lt;br /&gt;
 tier_1=[&amp;quot;Hund&amp;quot;,100,399,99,True]&amp;lt;br&amp;gt;&lt;br /&gt;
 del tier_1[1]&lt;br /&gt;
 print(tier_1)&lt;br /&gt;
&lt;br /&gt;
output &lt;br /&gt;
 ['Hund', 399, 99, True]&lt;br /&gt;
&lt;br /&gt;
===== Addition und Multiplikation von Listen =====&lt;br /&gt;
* Listen können miteinander addiert oder mit Zahlen multipliziert werden&lt;br /&gt;
(s. Beispiel_6)&lt;br /&gt;
* werden zwei Listen addiert, wird der Inhalt der Listen hintereinander ausgegeben &lt;br /&gt;
* wird eine Liste mit einer Zahl multipliziert, wird der Inhalt der Liste entsprechend oft hintereinander ausgegeben&lt;br /&gt;
&lt;br /&gt;
 #Beispiel_6:&lt;br /&gt;
 tier_1=[&amp;quot;Hund&amp;quot;,100,399,99,True]&lt;br /&gt;
 tier_2=[&amp;quot;Katze&amp;quot;,60,249,99,True]&lt;br /&gt;
 tier_3=[&amp;quot;Fisch&amp;quot;,3,1 ,50,False]&lt;br /&gt;
 &lt;br /&gt;
 print(tier_1 + tier_2)&lt;br /&gt;
 print(tier_1 *2)&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 ['Hund', 100, 399, 99, True, 'Katze', 60, 249, 99, True]&lt;br /&gt;
 ['Hund', 100, 399, 99, True, 'Hund', 100, 399, 99, True]&lt;br /&gt;
&lt;br /&gt;
===== Listen in Listen ===== &lt;br /&gt;
* Elemente einer Liste können selbst eine Liste sein, so erhält man Listen in einer Liste (s.Beispiel_7) &lt;br /&gt;
* es entsteht eine zweidimensionale Liste mit einer übergeordneten Liste (im Beispiel: alle_tiere) und den untergeordneten Listen ( tier_1, tier_2, tier_3) &lt;br /&gt;
* auf die Elemente der übergeordneten Liste lässt sich wie oben gezeigt zugreifen &lt;br /&gt;
* möchte man nur auf ein Element der untergeordneten Liste zugreifen, sind zwei Indexzahlen notwendig&lt;br /&gt;
* die erste Indexzahl gibt die Position des Elements in der übergeordneten Liste an&lt;br /&gt;
* die zweite Indexzahl gibt die Position des Elements in der untergeordneten Liste an (s.Beispiel_7)&lt;br /&gt;
&lt;br /&gt;
 #Befehl:&lt;br /&gt;
 print(liste[Position][Position])&lt;br /&gt;
 &lt;br /&gt;
 #Beispiel_7:&lt;br /&gt;
 tier_1=[&amp;quot;Hund&amp;quot;,100,399,99,True]&lt;br /&gt;
 tier_2=[&amp;quot;Katze&amp;quot;,60,249,99,True]&lt;br /&gt;
 tier_3=[&amp;quot;Fisch&amp;quot;,3,1 ,50,False]&lt;br /&gt;
 &lt;br /&gt;
 alle_tiere=[tier_1, tier_2, tier_3]&lt;br /&gt;
 print(alle_tiere)&lt;br /&gt;
 print(alle_tiere[0])&lt;br /&gt;
 print(alle_tiere[0][0])&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 [[&amp;quot;Hund&amp;quot;,100,399,99,True],[&amp;quot;Katze&amp;quot;,60,249,99,True],[&amp;quot;Fisch&amp;quot;,3,1 ,50,False]]&lt;br /&gt;
 ['Hund', 100, 399, 99, True]&lt;br /&gt;
 Hund&lt;br /&gt;
&lt;br /&gt;
=== Dictionaries ===&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 #Befehl:&lt;br /&gt;
 dictionary={&amp;quot;key_1&amp;quot;:Element_1,&amp;quot;key_2&amp;quot;:Element_2}&lt;br /&gt;
 &lt;br /&gt;
 #Beispiel_1:&lt;br /&gt;
 buch_1={&amp;quot;Buch&amp;quot;:&amp;quot;Der Herr der Ringe&amp;quot;, &amp;quot;Autor&amp;quot;:&amp;quot;Tolkien&amp;quot;, &amp;quot;Preis&amp;quot;:45}&lt;br /&gt;
 &lt;br /&gt;
 print(buch_1) &lt;br /&gt;
 print(buch_1[&amp;quot;Buch&amp;quot;])&lt;br /&gt;
 print(buch_1[&amp;quot;Autor&amp;quot;])&lt;br /&gt;
 print(buch_1[&amp;quot;Preis&amp;quot;])&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 {'Buch': 'Der Herr der Ringe', 'Autor': 'Tolkien', 'Preis': 45}&lt;br /&gt;
 Der Herr der Ringe&lt;br /&gt;
 Tolkien&lt;br /&gt;
 45&lt;br /&gt;
&lt;br /&gt;
==== Funktion ====&lt;br /&gt;
Listen sind zwar geeignet, um größere Mengen an Daten in übersichtlicher &lt;br /&gt;
und gut manipulierbarer Weise abzuspeichern, haben aber einen entscheidenden Nachteil.&lt;br /&gt;
Um auf ein Element in einer Liste zugreifen zu können, ist es notwendig die Position &lt;br /&gt;
des Elements in der Liste zu kennen. Bei kürzeren Listen lässt sich vielleicht noch der Überblick behalten. Sobald Listen aber eine gewissen Anzahl an Elementen überschreiten, &lt;br /&gt;
in einem Programm mehrere Listen verwendet werden oder sogar Listen in Listen gespeichert sind, &lt;br /&gt;
ist jeglicher Versuch sich die Positionen der Elemente zu merken vergebens. &lt;br /&gt;
Hier bringen die sogenannten Dictionaries den entscheidenden Vorteil. &lt;br /&gt;
Dictionaries funktionieren wie Listen, wenn es darum geht Informationen abzuspeichern. &lt;br /&gt;
Doch der Zugriff auf die Elemente folgt nicht durch eine Indexnummer sondern über ein sogenannten key oder Schlüsselbegriff. &lt;br /&gt;
Um auf die Elemente über einen key zugreifen zu können, werden den Elementen im Dictionary ein Schlüsselbegriff zugeordnet. &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==== Syntax ====&lt;br /&gt;
* nach dem Namen des Dictionary und dem Gleichheitszeichen folgt eine geschweifte Klammer {}&lt;br /&gt;
* danach folgt der Key, dabei kann es sich um ein integer, float, bool oder string handeln &lt;br /&gt;
* darauf folgt das Listenelement, getrennt durch einen Doppelpunkt vom Key und durch ein Komma vom nächsten Key-Element Paar &lt;br /&gt;
&lt;br /&gt;
===== Dictionary ausgeben lassen =====&lt;br /&gt;
* das ganze Dictionary lässt sich durch einen print-Befehl ausgeben (s. Beispie_1)&lt;br /&gt;
&lt;br /&gt;
====== einzelne Elemente des Dictionaries ausgeben ======&lt;br /&gt;
* der Zugriff erfolgt durch den key &lt;br /&gt;
* die Syntax ist analog zum Abruf der Elemente einer Liste, nur das statt der Indexzahl der key in die eckige Klammer geschrieben wird (s.Beispeil_1)&lt;br /&gt;
&lt;br /&gt;
===== Dictionary verändern =====&lt;br /&gt;
* wie Listen sind auch Dictionaries veränderbar, es können Elemente hinzugefügt, geändert und sogar gelöscht werden&lt;br /&gt;
&lt;br /&gt;
====== Element in Dictionary verändern ======&lt;br /&gt;
* die Syntax ist analog zur Veränderung eines Elements in Listen, nur hier wird der key, statt der Position in die eckigen Klammern hinter dem Namen des Dictionaries gesetzt (s.Beispiel_2)&lt;br /&gt;
&lt;br /&gt;
 #Befehl: &lt;br /&gt;
 dictionary[(bestehender)key]= neuer Wert&amp;lt;br&amp;gt;&lt;br /&gt;
 #Beispiel_2:&lt;br /&gt;
 buch_1={&amp;quot;Buch&amp;quot;:&amp;quot;Der Herr der Ringe&amp;quot;, &amp;quot;Autor&amp;quot;:&amp;quot;Tolkien&amp;quot;, &amp;quot;Preis&amp;quot;:45}&lt;br /&gt;
 buch_1[&amp;quot;Preis&amp;quot;]= 23&lt;br /&gt;
 print(buch_1)&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 {'Buch': 'Der Herr der Ringe', 'Autor': 'Tolkien', 'Preis': 23}&lt;br /&gt;
&lt;br /&gt;
====== Element zum Dictionary hinzufügen ======&lt;br /&gt;
* um Elemente zum Dictionary hinzuzufügen ist es notwendig auch gleichzeitig ein key für das Element zu definieren &lt;br /&gt;
* nach dem Listennamen und dem Key in eckigen Klammern folg ein Gleichheitszeichen und der Wert des neuen Elements (s.Beispiel_3)&lt;br /&gt;
&lt;br /&gt;
 #Befehl:&lt;br /&gt;
 dictionary[(neuer) key]= neues Element&lt;br /&gt;
 &lt;br /&gt;
 #Beispiel_3:&lt;br /&gt;
 buch_1={&amp;quot;Buch&amp;quot;:&amp;quot;Der Herr der Ringe&amp;quot;, &amp;quot;Autor&amp;quot;:&amp;quot;Tolkien&amp;quot;, &amp;quot;Preis&amp;quot;:45}&lt;br /&gt;
 &lt;br /&gt;
 buch_1[&amp;quot;Erscheinungsjahr&amp;quot;]= 1954&lt;br /&gt;
 buch_1[&amp;quot;Bewertung&amp;quot;]=&amp;quot;sehr gut&amp;quot;&lt;br /&gt;
 print(buch_1)&lt;br /&gt;
&lt;br /&gt;
output &lt;br /&gt;
 {'Buch': 'Der Herr der Ringe', 'Autor': 'Tolkien', 'Preis': 45, 'Erscheinungsjahr': 1954, 'Bewertung':   'sehr gut'}&lt;br /&gt;
&lt;br /&gt;
====== Element aus Dictionary löschen ======&lt;br /&gt;
* analoger Aufbau zum del-Befehl bei Listen &lt;br /&gt;
* hier wird wieder anstatt der Indexzahl der key in die eckigen Klammern gesetzt (s.Besipiel_4)&lt;br /&gt;
&lt;br /&gt;
 #Befehl:&lt;br /&gt;
 del dictionary[key] &lt;br /&gt;
 &lt;br /&gt;
 #Beispiel_4:&lt;br /&gt;
 buch_1={&amp;quot;Buch&amp;quot;:&amp;quot;Der Herr der Ringe&amp;quot;, &amp;quot;Autor&amp;quot;:&amp;quot;Tolkien&amp;quot;, &amp;quot;Preis&amp;quot;:45}&lt;br /&gt;
 &lt;br /&gt;
 del buch_1[&amp;quot;Preis&amp;quot;]&lt;br /&gt;
 print(buch_1)&lt;br /&gt;
&lt;br /&gt;
output &lt;br /&gt;
 {'Buch': 'Der Herr der Ringe', 'Autor': 'Tolkien'}&lt;br /&gt;
&lt;br /&gt;
=== Tupel ===&lt;br /&gt;
 #Befehl:&lt;br /&gt;
 tupel= element_1, element_2 &amp;lt;br&amp;gt;&lt;br /&gt;
 #Beispiel_1:&lt;br /&gt;
 tier_1=&amp;quot;Hund&amp;quot;,100,399,99,True&amp;lt;br&amp;gt;&lt;br /&gt;
 print(tier_1)&lt;br /&gt;
 print(tier_1[0])&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 ('Hund', 100, 399, 99, True)&lt;br /&gt;
 Hund&lt;br /&gt;
&lt;br /&gt;
==== Funktion ==== &lt;br /&gt;
* Tupelo sind unveränderliche Daten, d.h. die Elemente eines Tupels sind im Gegensatz zu Listen und Dictionaries nicht veränderbar oder löschbar &lt;br /&gt;
* sie können jedoch ergänzt werden &lt;br /&gt;
* Tupel werden genutzt, um Daten zu speichern, die nicht geändert werden sollen &lt;br /&gt;
* (man könnte diese natürlich auch in Dictionarie und Listen speichern, so geht man aber sicher, dass die Daten nicht ausersehen geändert werden; außerdem ist die Speicherperformance besser)  &lt;br /&gt;
&lt;br /&gt;
==== Syntax ==== &lt;br /&gt;
* die Erstellung von Tupeln ist analog zur Erstellung von Listen, nur hier werden keine Klammern benötigt (s.Beispiel_1) &lt;br /&gt;
* der Zugriff auf die Elemente des Tupels ist analog zur Syntax bei Listen (s.Beispiel_1)&lt;br /&gt;
&lt;br /&gt;
=====Tupel ausgeben lassen =====&lt;br /&gt;
* sowohl das ausgeben des ganzen Tupels, als auch der einzelnen Elemente folgt der selben Syntax der Listen   &lt;br /&gt;
&lt;br /&gt;
===== Erweiterung eines Tupels =====&lt;br /&gt;
* auch hier ist die Syntax analog zur Erweiterung von Listen&lt;br /&gt;
* das neue Element muss selbst ein Tupel sein, um es zum Tupel hinzufügen zu können &lt;br /&gt;
* dazu muss das neue Element erst als Tupel abgespeichert werden &lt;br /&gt;
* um ein neues Element als Tupel zu speichern, wird ein Tupel mit nur einem Element erstellt &lt;br /&gt;
* nun kann dieser Tupel dem alten hinzugefügt werden (s.Beispiel_2)&lt;br /&gt;
&lt;br /&gt;
 #Beispiel_2:&lt;br /&gt;
 tier_1=&amp;quot;Hund&amp;quot;,100,399,99,True&lt;br /&gt;
 farbe= &amp;quot;braun&amp;quot;,&lt;br /&gt;
 tier_1=tier_1 + farbe&lt;br /&gt;
 print(tier_1)&lt;br /&gt;
&lt;br /&gt;
output&lt;br /&gt;
 ('Hund', 100, 399, 99, True, 'braun')&lt;br /&gt;
&lt;br /&gt;
== Literatur ==&lt;br /&gt;
Michael Bonacina: Python 3 Programmieren für Einsteiger. 2. Auflage. BMU Verlag, Landshut 2019, ISBN: 978-3-96645-007-2&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5_Transkriptom_RNA_Seq_2&amp;diff=947</id>
		<title>5 Transkriptom RNA Seq 2</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5_Transkriptom_RNA_Seq_2&amp;diff=947"/>
		<updated>2021-09-28T18:37:15Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* 3. Sequenzierung/ Next generation Sequencing */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
= RNAseq =&lt;br /&gt;
RNA sequencing ist eine Methode zur Analyse von Transkriptomen. Hierbei wird die Sequenz aller in der Probe vorhandenen mRNA Moleküle durch Next-Generation Sequencing (NGS) ermittelt.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
== 1. Isolierung von mRNA ==&lt;br /&gt;
* nur 1-2% der totalen RNA ist mRNA&lt;br /&gt;
* 90% rRNA&lt;br /&gt;
* weil wir nur die mRNA isolieren wollen, müssen wir diese von der restlichen RNA trennen &lt;br /&gt;
* das ist entweder durch die sogennante poly(A) Anreicherung möglich, dabeimacht man sich die besondere Eigenschaft der mRNA zu nutze &lt;br /&gt;
* diese besitzt im Gegensatz zu anderen RNA Spezies einen polyA-Schwanz, immobilisiert man auf der Matrix einer Chromatofraphiesäule polyT-Seqeunezen, kann die mRNA komplementär an diese binden und kann so hufgereinigt werden &lt;br /&gt;
* die zweite Möglichkeit ist der spezifische Abbau von rRNA&lt;br /&gt;
* diese Vorgehensweise gewinnt vor allem bei Prokaryotischer mRNA an Bedeutung, bei der es keinen polyA-Schwanz gibt &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
== 2. cDNA Synthese und Library Präparation ==&lt;br /&gt;
*Information über kodierenden Strang kann durch 2-stufige cDNA Synthese und dUTP Nukleotiden konserviert werden.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
[[File:RNA-Seq.png|400px|center|thumb]]&lt;br /&gt;
&lt;br /&gt;
* Abbau des non-coding Stranges durch durch Uracil-DNA-Glykosylase&lt;br /&gt;
* baut spezifisch den non-coding Strang ab, weil dieser als einziger Uracil besitzt &lt;br /&gt;
* d.h. alle zum cDNA-Originalstrang komplementären Stränge werden abgebaut&lt;br /&gt;
* durch die Adapter bleibt die Topologie erhalten &lt;br /&gt;
* es folgt die Amplifikation mittels PCR&lt;br /&gt;
&lt;br /&gt;
== 3. Sequenzierung/ Next generation Sequencing ==&lt;br /&gt;
* Sequenziertiefe bestimmt die Empfindlichkeit und die Genauigkeit&lt;br /&gt;
* 5 Millionen reads ausreichend für mittel-hoch exprimierte Gene&lt;br /&gt;
* 100 Millionen reads für schwach exprimierte Gene&lt;br /&gt;
* wichtig: Anzahl an Replikaten bestimmt statistische Sensitivität für Unterschiede&lt;br /&gt;
&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
| &amp;amp;nbsp;|| colspan=&amp;quot;3&amp;quot;| Replikate pro Gruppe&lt;br /&gt;
|-&lt;br /&gt;
| fold change|| 3|| 5|| 10&lt;br /&gt;
|-&lt;br /&gt;
| 1,25|| 17%|| 25%|| 44%&lt;br /&gt;
|-&lt;br /&gt;
| 1,5|| 43%|| 64%|| 91%&lt;br /&gt;
|-&lt;br /&gt;
| 2|| 87%|| 98%|| 100%&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
* die Tabelle stellt die Wahrscheinlichkeit dar, einen bestimmten fold change bei einer bestimmten Anzahl an Repliken zu delektieren bzw. statistisch signifikant zu finden&lt;br /&gt;
&lt;br /&gt;
== 4. Datenanalyse ==&lt;br /&gt;
Präsprozessierung der Rohdaten: &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;amp;rArr;Filtern von Basen mit geringer Sequenzierqualität&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;amp;rArr; Trimmen von Adaptersequenzen und PCR-Primersequenzen&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;amp;rArr; Programme: FASTQC, NGSQC, Trimmomatic&lt;br /&gt;
&lt;br /&gt;
== 5. Read Alignment ==&lt;br /&gt;
[[File:Read-alignment.png|center|1000px]]&lt;br /&gt;
&lt;br /&gt;
=== SAM und BAM Format === &lt;br /&gt;
* Enthält Informationen über die Sequenz-reads nach dem Alignment an ein Referenzgenom.&lt;br /&gt;
* SAM= Sequence Alignment/Map &lt;br /&gt;
* BAM= Binary Alignment/Map&lt;br /&gt;
* SAM ist ein textbasiertes Dateiformat und BAM ein binäres Dateiformat.&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=946</id>
		<title>Glossar</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=946"/>
		<updated>2021-09-28T14:27:07Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* F */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== A ==&lt;br /&gt;
[[3_Alignments#Alignments|Alignment]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Algorithmus]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Assembly]]: Bioinformatisches Verfahren, bei dem überlappende reads erst zu Contings und anschließend zu Scaffolds zusammengesetzt werden.&lt;br /&gt;
&lt;br /&gt;
== B ==&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_2:_Benjamini-Hochberg-Prozedur|Benjamini-Hochberg-Prozedur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_1:_Bonferroni-Korrektur|Bonferroni-Korrektur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[4.Burrows-Wheeler|Burrows-Wheeler Transformation]]&lt;br /&gt;
&lt;br /&gt;
== C ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Contiq]]: Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken &amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Sequenzabdeckung|Coverage]]: Die Anzahl der reads an einer beliebigen Stelle der Sequenz, die diese abdecken&lt;br /&gt;
&lt;br /&gt;
== D ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Dynamic programming]]&lt;br /&gt;
&lt;br /&gt;
== E ==&lt;br /&gt;
== F ==&lt;br /&gt;
[[1_Datenbanken#FASTA|FASTA-Format]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#FASTQ|FASTQ-Format]]: Textbasierte Methode zur Speicherung einer Sequenz (DNA/RNA). Dabei wird auch die Qualität der sequenzierten Base jeweils in einem ASCII Symbol vermerkt&lt;br /&gt;
&lt;br /&gt;
== G ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|gap penalty]]&lt;br /&gt;
&lt;br /&gt;
== H ==&lt;br /&gt;
== I ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Illumina_Sequencing_.282nd_Generation_Sequencing.29|Illumina]]&lt;br /&gt;
&lt;br /&gt;
== J ==&lt;br /&gt;
== K ==&lt;br /&gt;
== L ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Lander-Waterman-Modell|Lander-Waterman-Modell]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|Library]]&lt;br /&gt;
&lt;br /&gt;
== M ==&lt;br /&gt;
[[Microarrays]]&lt;br /&gt;
&lt;br /&gt;
== N ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|NGS]]: Next Generation Sequencing, Sammelbegriff für neuartige Sequenziermethoden, die einen höhere Durchsatz besitzen als die klassische Sangermethode. Dies ist möglich, da die Sequenzierungen parallel durchgeführt werden können &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#t-Test|Nullhypothese]]&lt;br /&gt;
&lt;br /&gt;
== O ==&lt;br /&gt;
== P ==&lt;br /&gt;
[[7_Multiples_Testen#P-Wert|p-value]]&lt;br /&gt;
&lt;br /&gt;
== Q ==&lt;br /&gt;
== R ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|reads]]: Aus der RNA-Seq. erhaltene Fragmente sequenzierter RNA. Diese können anschließend einem Refernezgenom zugeordnet werden.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[RNAseq|RNASeq]]: Sequenzierung des gesamten Transkriptoms einer Zelle durch NGS-Methoden. Dazu muss die mRNA durch Reverse Transkriptase in cDNA umgeschrieben werden. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#RPKM|RPKM]]: Reads per kilobase of transcript per Million mapped reads&lt;br /&gt;
&lt;br /&gt;
== S ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Scaffold]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3_Alignments#Smith-Waterman_Algorithmus|Smith-Waterman Algorithmus]]&lt;br /&gt;
&lt;br /&gt;
== T ==&lt;br /&gt;
[[7_Multiples_Testen#t-Test|t-Test]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TMM|TMM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TPM|TPM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[Transkriptom]]&lt;br /&gt;
&lt;br /&gt;
== U ==&lt;br /&gt;
== V ==&lt;br /&gt;
== W ==&lt;br /&gt;
== X ==&lt;br /&gt;
== Y ==&lt;br /&gt;
== Z ==&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=945</id>
		<title>Glossar</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=945"/>
		<updated>2021-09-28T14:24:49Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* N */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== A ==&lt;br /&gt;
[[3_Alignments#Alignments|Alignment]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Algorithmus]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Assembly]]: Bioinformatisches Verfahren, bei dem überlappende reads erst zu Contings und anschließend zu Scaffolds zusammengesetzt werden.&lt;br /&gt;
&lt;br /&gt;
== B ==&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_2:_Benjamini-Hochberg-Prozedur|Benjamini-Hochberg-Prozedur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_1:_Bonferroni-Korrektur|Bonferroni-Korrektur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[4.Burrows-Wheeler|Burrows-Wheeler Transformation]]&lt;br /&gt;
&lt;br /&gt;
== C ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Contiq]]: Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken &amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Sequenzabdeckung|Coverage]]: Die Anzahl der reads an einer beliebigen Stelle der Sequenz, die diese abdecken&lt;br /&gt;
&lt;br /&gt;
== D ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Dynamic programming]]&lt;br /&gt;
&lt;br /&gt;
== E ==&lt;br /&gt;
== F ==&lt;br /&gt;
[[1_Datenbanken#FASTA|FASTA-Format]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#FASTQ|FASTQ-Format]]&lt;br /&gt;
&lt;br /&gt;
== G ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|gap penalty]]&lt;br /&gt;
&lt;br /&gt;
== H ==&lt;br /&gt;
== I ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Illumina_Sequencing_.282nd_Generation_Sequencing.29|Illumina]]&lt;br /&gt;
&lt;br /&gt;
== J ==&lt;br /&gt;
== K ==&lt;br /&gt;
== L ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Lander-Waterman-Modell|Lander-Waterman-Modell]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|Library]]&lt;br /&gt;
&lt;br /&gt;
== M ==&lt;br /&gt;
[[Microarrays]]&lt;br /&gt;
&lt;br /&gt;
== N ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|NGS]]: Next Generation Sequencing, Sammelbegriff für neuartige Sequenziermethoden, die einen höhere Durchsatz besitzen als die klassische Sangermethode. Dies ist möglich, da die Sequenzierungen parallel durchgeführt werden können &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#t-Test|Nullhypothese]]&lt;br /&gt;
&lt;br /&gt;
== O ==&lt;br /&gt;
== P ==&lt;br /&gt;
[[7_Multiples_Testen#P-Wert|p-value]]&lt;br /&gt;
&lt;br /&gt;
== Q ==&lt;br /&gt;
== R ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|reads]]: Aus der RNA-Seq. erhaltene Fragmente sequenzierter RNA. Diese können anschließend einem Refernezgenom zugeordnet werden.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[RNAseq|RNASeq]]: Sequenzierung des gesamten Transkriptoms einer Zelle durch NGS-Methoden. Dazu muss die mRNA durch Reverse Transkriptase in cDNA umgeschrieben werden. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#RPKM|RPKM]]: Reads per kilobase of transcript per Million mapped reads&lt;br /&gt;
&lt;br /&gt;
== S ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Scaffold]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3_Alignments#Smith-Waterman_Algorithmus|Smith-Waterman Algorithmus]]&lt;br /&gt;
&lt;br /&gt;
== T ==&lt;br /&gt;
[[7_Multiples_Testen#t-Test|t-Test]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TMM|TMM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TPM|TPM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[Transkriptom]]&lt;br /&gt;
&lt;br /&gt;
== U ==&lt;br /&gt;
== V ==&lt;br /&gt;
== W ==&lt;br /&gt;
== X ==&lt;br /&gt;
== Y ==&lt;br /&gt;
== Z ==&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=944</id>
		<title>Glossar</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=944"/>
		<updated>2021-09-28T14:23:40Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* C */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== A ==&lt;br /&gt;
[[3_Alignments#Alignments|Alignment]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Algorithmus]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Assembly]]: Bioinformatisches Verfahren, bei dem überlappende reads erst zu Contings und anschließend zu Scaffolds zusammengesetzt werden.&lt;br /&gt;
&lt;br /&gt;
== B ==&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_2:_Benjamini-Hochberg-Prozedur|Benjamini-Hochberg-Prozedur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_1:_Bonferroni-Korrektur|Bonferroni-Korrektur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[4.Burrows-Wheeler|Burrows-Wheeler Transformation]]&lt;br /&gt;
&lt;br /&gt;
== C ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Contiq]]: Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken &amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Sequenzabdeckung|Coverage]]: Die Anzahl der reads an einer beliebigen Stelle der Sequenz, die diese abdecken&lt;br /&gt;
&lt;br /&gt;
== D ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Dynamic programming]]&lt;br /&gt;
&lt;br /&gt;
== E ==&lt;br /&gt;
== F ==&lt;br /&gt;
[[1_Datenbanken#FASTA|FASTA-Format]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#FASTQ|FASTQ-Format]]&lt;br /&gt;
&lt;br /&gt;
== G ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|gap penalty]]&lt;br /&gt;
&lt;br /&gt;
== H ==&lt;br /&gt;
== I ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Illumina_Sequencing_.282nd_Generation_Sequencing.29|Illumina]]&lt;br /&gt;
&lt;br /&gt;
== J ==&lt;br /&gt;
== K ==&lt;br /&gt;
== L ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Lander-Waterman-Modell|Lander-Waterman-Modell]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|Library]]&lt;br /&gt;
&lt;br /&gt;
== M ==&lt;br /&gt;
[[Microarrays]]&lt;br /&gt;
&lt;br /&gt;
== N ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|NGS]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#t-Test|Nullhypothese]]&lt;br /&gt;
&lt;br /&gt;
== O ==&lt;br /&gt;
== P ==&lt;br /&gt;
[[7_Multiples_Testen#P-Wert|p-value]]&lt;br /&gt;
&lt;br /&gt;
== Q ==&lt;br /&gt;
== R ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|reads]]: Aus der RNA-Seq. erhaltene Fragmente sequenzierter RNA. Diese können anschließend einem Refernezgenom zugeordnet werden.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[RNAseq|RNASeq]]: Sequenzierung des gesamten Transkriptoms einer Zelle durch NGS-Methoden. Dazu muss die mRNA durch Reverse Transkriptase in cDNA umgeschrieben werden. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#RPKM|RPKM]]: Reads per kilobase of transcript per Million mapped reads&lt;br /&gt;
&lt;br /&gt;
== S ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Scaffold]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3_Alignments#Smith-Waterman_Algorithmus|Smith-Waterman Algorithmus]]&lt;br /&gt;
&lt;br /&gt;
== T ==&lt;br /&gt;
[[7_Multiples_Testen#t-Test|t-Test]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TMM|TMM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TPM|TPM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[Transkriptom]]&lt;br /&gt;
&lt;br /&gt;
== U ==&lt;br /&gt;
== V ==&lt;br /&gt;
== W ==&lt;br /&gt;
== X ==&lt;br /&gt;
== Y ==&lt;br /&gt;
== Z ==&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=943</id>
		<title>Glossar</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=943"/>
		<updated>2021-09-28T14:22:11Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* A */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== A ==&lt;br /&gt;
[[3_Alignments#Alignments|Alignment]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Algorithmus]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Assembly]]: Bioinformatisches Verfahren, bei dem überlappende reads erst zu Contings und anschließend zu Scaffolds zusammengesetzt werden.&lt;br /&gt;
&lt;br /&gt;
== B ==&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_2:_Benjamini-Hochberg-Prozedur|Benjamini-Hochberg-Prozedur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_1:_Bonferroni-Korrektur|Bonferroni-Korrektur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[4.Burrows-Wheeler|Burrows-Wheeler Transformation]]&lt;br /&gt;
&lt;br /&gt;
== C ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Contiq]]: Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken. &amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Sequenzabdeckung|Coverage]]&lt;br /&gt;
&lt;br /&gt;
== D ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Dynamic programming]]&lt;br /&gt;
&lt;br /&gt;
== E ==&lt;br /&gt;
== F ==&lt;br /&gt;
[[1_Datenbanken#FASTA|FASTA-Format]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#FASTQ|FASTQ-Format]]&lt;br /&gt;
&lt;br /&gt;
== G ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|gap penalty]]&lt;br /&gt;
&lt;br /&gt;
== H ==&lt;br /&gt;
== I ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Illumina_Sequencing_.282nd_Generation_Sequencing.29|Illumina]]&lt;br /&gt;
&lt;br /&gt;
== J ==&lt;br /&gt;
== K ==&lt;br /&gt;
== L ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Lander-Waterman-Modell|Lander-Waterman-Modell]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|Library]]&lt;br /&gt;
&lt;br /&gt;
== M ==&lt;br /&gt;
[[Microarrays]]&lt;br /&gt;
&lt;br /&gt;
== N ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|NGS]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#t-Test|Nullhypothese]]&lt;br /&gt;
&lt;br /&gt;
== O ==&lt;br /&gt;
== P ==&lt;br /&gt;
[[7_Multiples_Testen#P-Wert|p-value]]&lt;br /&gt;
&lt;br /&gt;
== Q ==&lt;br /&gt;
== R ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|reads]]: Aus der RNA-Seq. erhaltene Fragmente sequenzierter RNA. Diese können anschließend einem Refernezgenom zugeordnet werden.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[RNAseq|RNASeq]]: Sequenzierung des gesamten Transkriptoms einer Zelle durch NGS-Methoden. Dazu muss die mRNA durch Reverse Transkriptase in cDNA umgeschrieben werden. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#RPKM|RPKM]]: Reads per kilobase of transcript per Million mapped reads&lt;br /&gt;
&lt;br /&gt;
== S ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Scaffold]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3_Alignments#Smith-Waterman_Algorithmus|Smith-Waterman Algorithmus]]&lt;br /&gt;
&lt;br /&gt;
== T ==&lt;br /&gt;
[[7_Multiples_Testen#t-Test|t-Test]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TMM|TMM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TPM|TPM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[Transkriptom]]&lt;br /&gt;
&lt;br /&gt;
== U ==&lt;br /&gt;
== V ==&lt;br /&gt;
== W ==&lt;br /&gt;
== X ==&lt;br /&gt;
== Y ==&lt;br /&gt;
== Z ==&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=942</id>
		<title>Glossar</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=942"/>
		<updated>2021-09-28T14:20:52Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* C */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== A ==&lt;br /&gt;
[[3_Alignments#Alignments|Alignment]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Algorithmus]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Assembly]]&lt;br /&gt;
&lt;br /&gt;
== B ==&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_2:_Benjamini-Hochberg-Prozedur|Benjamini-Hochberg-Prozedur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_1:_Bonferroni-Korrektur|Bonferroni-Korrektur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[4.Burrows-Wheeler|Burrows-Wheeler Transformation]]&lt;br /&gt;
&lt;br /&gt;
== C ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Contiq]]: Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken. &amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Sequenzabdeckung|Coverage]]&lt;br /&gt;
&lt;br /&gt;
== D ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Dynamic programming]]&lt;br /&gt;
&lt;br /&gt;
== E ==&lt;br /&gt;
== F ==&lt;br /&gt;
[[1_Datenbanken#FASTA|FASTA-Format]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#FASTQ|FASTQ-Format]]&lt;br /&gt;
&lt;br /&gt;
== G ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|gap penalty]]&lt;br /&gt;
&lt;br /&gt;
== H ==&lt;br /&gt;
== I ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Illumina_Sequencing_.282nd_Generation_Sequencing.29|Illumina]]&lt;br /&gt;
&lt;br /&gt;
== J ==&lt;br /&gt;
== K ==&lt;br /&gt;
== L ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Lander-Waterman-Modell|Lander-Waterman-Modell]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|Library]]&lt;br /&gt;
&lt;br /&gt;
== M ==&lt;br /&gt;
[[Microarrays]]&lt;br /&gt;
&lt;br /&gt;
== N ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|NGS]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#t-Test|Nullhypothese]]&lt;br /&gt;
&lt;br /&gt;
== O ==&lt;br /&gt;
== P ==&lt;br /&gt;
[[7_Multiples_Testen#P-Wert|p-value]]&lt;br /&gt;
&lt;br /&gt;
== Q ==&lt;br /&gt;
== R ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|reads]]: Aus der RNA-Seq. erhaltene Fragmente sequenzierter RNA. Diese können anschließend einem Refernezgenom zugeordnet werden.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[RNAseq|RNASeq]]: Sequenzierung des gesamten Transkriptoms einer Zelle durch NGS-Methoden. Dazu muss die mRNA durch Reverse Transkriptase in cDNA umgeschrieben werden. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#RPKM|RPKM]]: Reads per kilobase of transcript per Million mapped reads&lt;br /&gt;
&lt;br /&gt;
== S ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Scaffold]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3_Alignments#Smith-Waterman_Algorithmus|Smith-Waterman Algorithmus]]&lt;br /&gt;
&lt;br /&gt;
== T ==&lt;br /&gt;
[[7_Multiples_Testen#t-Test|t-Test]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TMM|TMM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TPM|TPM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[Transkriptom]]&lt;br /&gt;
&lt;br /&gt;
== U ==&lt;br /&gt;
== V ==&lt;br /&gt;
== W ==&lt;br /&gt;
== X ==&lt;br /&gt;
== Y ==&lt;br /&gt;
== Z ==&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=941</id>
		<title>Glossar</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=941"/>
		<updated>2021-09-28T14:20:40Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* C */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== A ==&lt;br /&gt;
[[3_Alignments#Alignments|Alignment]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Algorithmus]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Assembly]]&lt;br /&gt;
&lt;br /&gt;
== B ==&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_2:_Benjamini-Hochberg-Prozedur|Benjamini-Hochberg-Prozedur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_1:_Bonferroni-Korrektur|Bonferroni-Korrektur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[4.Burrows-Wheeler|Burrows-Wheeler Transformation]]&lt;br /&gt;
&lt;br /&gt;
== C ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Contiq]]:Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken. &amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Sequenzabdeckung|Coverage]]&lt;br /&gt;
&lt;br /&gt;
== D ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Dynamic programming]]&lt;br /&gt;
&lt;br /&gt;
== E ==&lt;br /&gt;
== F ==&lt;br /&gt;
[[1_Datenbanken#FASTA|FASTA-Format]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#FASTQ|FASTQ-Format]]&lt;br /&gt;
&lt;br /&gt;
== G ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|gap penalty]]&lt;br /&gt;
&lt;br /&gt;
== H ==&lt;br /&gt;
== I ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Illumina_Sequencing_.282nd_Generation_Sequencing.29|Illumina]]&lt;br /&gt;
&lt;br /&gt;
== J ==&lt;br /&gt;
== K ==&lt;br /&gt;
== L ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Lander-Waterman-Modell|Lander-Waterman-Modell]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|Library]]&lt;br /&gt;
&lt;br /&gt;
== M ==&lt;br /&gt;
[[Microarrays]]&lt;br /&gt;
&lt;br /&gt;
== N ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|NGS]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#t-Test|Nullhypothese]]&lt;br /&gt;
&lt;br /&gt;
== O ==&lt;br /&gt;
== P ==&lt;br /&gt;
[[7_Multiples_Testen#P-Wert|p-value]]&lt;br /&gt;
&lt;br /&gt;
== Q ==&lt;br /&gt;
== R ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|reads]]: Aus der RNA-Seq. erhaltene Fragmente sequenzierter RNA. Diese können anschließend einem Refernezgenom zugeordnet werden.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[RNAseq|RNASeq]]: Sequenzierung des gesamten Transkriptoms einer Zelle durch NGS-Methoden. Dazu muss die mRNA durch Reverse Transkriptase in cDNA umgeschrieben werden. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#RPKM|RPKM]]: Reads per kilobase of transcript per Million mapped reads&lt;br /&gt;
&lt;br /&gt;
== S ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Scaffold]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3_Alignments#Smith-Waterman_Algorithmus|Smith-Waterman Algorithmus]]&lt;br /&gt;
&lt;br /&gt;
== T ==&lt;br /&gt;
[[7_Multiples_Testen#t-Test|t-Test]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TMM|TMM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TPM|TPM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[Transkriptom]]&lt;br /&gt;
&lt;br /&gt;
== U ==&lt;br /&gt;
== V ==&lt;br /&gt;
== W ==&lt;br /&gt;
== X ==&lt;br /&gt;
== Y ==&lt;br /&gt;
== Z ==&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=940</id>
		<title>Glossar</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=940"/>
		<updated>2021-09-28T14:19:20Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* R */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== A ==&lt;br /&gt;
[[3_Alignments#Alignments|Alignment]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Algorithmus]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Assembly]]&lt;br /&gt;
&lt;br /&gt;
== B ==&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_2:_Benjamini-Hochberg-Prozedur|Benjamini-Hochberg-Prozedur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_1:_Bonferroni-Korrektur|Bonferroni-Korrektur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[4.Burrows-Wheeler|Burrows-Wheeler Transformation]]&lt;br /&gt;
&lt;br /&gt;
== C ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Contiq]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Sequenzabdeckung|Coverage]]&lt;br /&gt;
&lt;br /&gt;
== D ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Dynamic programming]]&lt;br /&gt;
&lt;br /&gt;
== E ==&lt;br /&gt;
== F ==&lt;br /&gt;
[[1_Datenbanken#FASTA|FASTA-Format]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#FASTQ|FASTQ-Format]]&lt;br /&gt;
&lt;br /&gt;
== G ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|gap penalty]]&lt;br /&gt;
&lt;br /&gt;
== H ==&lt;br /&gt;
== I ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Illumina_Sequencing_.282nd_Generation_Sequencing.29|Illumina]]&lt;br /&gt;
&lt;br /&gt;
== J ==&lt;br /&gt;
== K ==&lt;br /&gt;
== L ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Lander-Waterman-Modell|Lander-Waterman-Modell]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|Library]]&lt;br /&gt;
&lt;br /&gt;
== M ==&lt;br /&gt;
[[Microarrays]]&lt;br /&gt;
&lt;br /&gt;
== N ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|NGS]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#t-Test|Nullhypothese]]&lt;br /&gt;
&lt;br /&gt;
== O ==&lt;br /&gt;
== P ==&lt;br /&gt;
[[7_Multiples_Testen#P-Wert|p-value]]&lt;br /&gt;
&lt;br /&gt;
== Q ==&lt;br /&gt;
== R ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|reads]]: Aus der RNA-Seq. erhaltene Fragmente sequenzierter RNA. Diese können anschließend einem Refernezgenom zugeordnet werden.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[RNAseq|RNASeq]]: Sequenzierung des gesamten Transkriptoms einer Zelle durch NGS-Methoden. Dazu muss die mRNA durch Reverse Transkriptase in cDNA umgeschrieben werden. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#RPKM|RPKM]]: Reads per kilobase of transcript per Million mapped reads&lt;br /&gt;
&lt;br /&gt;
== S ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Scaffold]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3_Alignments#Smith-Waterman_Algorithmus|Smith-Waterman Algorithmus]]&lt;br /&gt;
&lt;br /&gt;
== T ==&lt;br /&gt;
[[7_Multiples_Testen#t-Test|t-Test]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TMM|TMM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TPM|TPM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[Transkriptom]]&lt;br /&gt;
&lt;br /&gt;
== U ==&lt;br /&gt;
== V ==&lt;br /&gt;
== W ==&lt;br /&gt;
== X ==&lt;br /&gt;
== Y ==&lt;br /&gt;
== Z ==&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=939</id>
		<title>Glossar</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=Glossar&amp;diff=939"/>
		<updated>2021-09-28T14:18:47Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* R */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== A ==&lt;br /&gt;
[[3_Alignments#Alignments|Alignment]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Algorithmus]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Assembly]]&lt;br /&gt;
&lt;br /&gt;
== B ==&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_2:_Benjamini-Hochberg-Prozedur|Benjamini-Hochberg-Prozedur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#L.C3.B6sung_1:_Bonferroni-Korrektur|Bonferroni-Korrektur]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[4.Burrows-Wheeler|Burrows-Wheeler Transformation]]&lt;br /&gt;
&lt;br /&gt;
== C ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Contiq]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Sequenzabdeckung|Coverage]]&lt;br /&gt;
&lt;br /&gt;
== D ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|Dynamic programming]]&lt;br /&gt;
&lt;br /&gt;
== E ==&lt;br /&gt;
== F ==&lt;br /&gt;
[[1_Datenbanken#FASTA|FASTA-Format]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#FASTQ|FASTQ-Format]]&lt;br /&gt;
&lt;br /&gt;
== G ==&lt;br /&gt;
[[3.Smith-Waterman#Aufgabe_1:_Definitionen|gap penalty]]&lt;br /&gt;
&lt;br /&gt;
== H ==&lt;br /&gt;
== I ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Illumina_Sequencing_.282nd_Generation_Sequencing.29|Illumina]]&lt;br /&gt;
&lt;br /&gt;
== J ==&lt;br /&gt;
== K ==&lt;br /&gt;
== L ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Lander-Waterman-Modell|Lander-Waterman-Modell]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|Library]]&lt;br /&gt;
&lt;br /&gt;
== M ==&lt;br /&gt;
[[Microarrays]]&lt;br /&gt;
&lt;br /&gt;
== N ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|NGS]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[7_Multiples_Testen#t-Test|Nullhypothese]]&lt;br /&gt;
&lt;br /&gt;
== O ==&lt;br /&gt;
== P ==&lt;br /&gt;
[[7_Multiples_Testen#P-Wert|p-value]]&lt;br /&gt;
&lt;br /&gt;
== Q ==&lt;br /&gt;
== R ==&lt;br /&gt;
[[2.Transkriptom_RNA_Seq_1#Aufgabe_1:_Definitionen|reads]]: Aus der RNA-Seq. erhaltene Fragmente sequenzierter RNA. Diese können anschließend einem Refernezgenom zugeordnet werden.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[RNAseq|RNASeq]]: Sequenzierung des gesamten Transkriptoms einer Zelle durch NGS-Methoden. Dazu muss die mRNA durch Reverse Transkriptase in cDNA umgeschrieben werden. &lt;br /&gt;
 &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#RPKM|RPKM]]: Reads per kilobase of transcript per Million mapped reads&lt;br /&gt;
&lt;br /&gt;
== S ==&lt;br /&gt;
[[2_Transkriptom_RNA_Seq_1#Assemblierung_der_reads|Scaffold]]&amp;lt;br&amp;gt;&lt;br /&gt;
[[3_Alignments#Smith-Waterman_Algorithmus|Smith-Waterman Algorithmus]]&lt;br /&gt;
&lt;br /&gt;
== T ==&lt;br /&gt;
[[7_Multiples_Testen#t-Test|t-Test]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TMM|TMM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[6_Normalisierungen#TPM|TPM]] &amp;lt;br&amp;gt;&lt;br /&gt;
[[Transkriptom]]&lt;br /&gt;
&lt;br /&gt;
== U ==&lt;br /&gt;
== V ==&lt;br /&gt;
== W ==&lt;br /&gt;
== X ==&lt;br /&gt;
== Y ==&lt;br /&gt;
== Z ==&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5_Transkriptom_RNA_Seq_2&amp;diff=938</id>
		<title>5 Transkriptom RNA Seq 2</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5_Transkriptom_RNA_Seq_2&amp;diff=938"/>
		<updated>2021-09-27T14:30:22Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* 5. Read Alignment */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
= RNAseq =&lt;br /&gt;
RNA sequencing ist eine Methode zur Analyse von Transkriptomen. Hierbei wird die Sequenz aller in der Probe vorhandenen mRNA Moleküle durch Next-Generation Sequencing (NGS) ermittelt.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
== 1. Isolierung von mRNA ==&lt;br /&gt;
* nur 1-2% der totalen RNA ist mRNA&lt;br /&gt;
* 90% rRNA&lt;br /&gt;
* weil wir nur die mRNA isolieren wollen, müssen wir diese von der restlichen RNA trennen &lt;br /&gt;
* das ist entweder durch die sogennante poly(A) Anreicherung möglich, dabeimacht man sich die besondere Eigenschaft der mRNA zu nutze &lt;br /&gt;
* diese besitzt im Gegensatz zu anderen RNA Spezies einen polyA-Schwanz, immobilisiert man auf der Matrix einer Chromatofraphiesäule polyT-Seqeunezen, kann die mRNA komplementär an diese binden und kann so hufgereinigt werden &lt;br /&gt;
* die zweite Möglichkeit ist der spezifische Abbau von rRNA&lt;br /&gt;
* diese Vorgehensweise gewinnt vor allem bei Prokaryotischer mRNA an Bedeutung, bei der es keinen polyA-Schwanz gibt &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
== 2. cDNA Synthese und Library Präparation ==&lt;br /&gt;
*Information über kodierenden Strang kann durch 2-stufige cDNA Synthese und dUTP Nukleotiden konserviert werden.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
[[File:RNA-Seq.png|400px|center|thumb]]&lt;br /&gt;
&lt;br /&gt;
* Abbau des non-coding Stranges durch durch Uracil-DNA-Glykosylase&lt;br /&gt;
* baut spezifisch den non-coding Strang ab, weil dieser als einziger Uracil besitzt &lt;br /&gt;
* d.h. alle zum cDNA-Originalstrang komplementären Stränge werden abgebaut&lt;br /&gt;
* durch die Adapter bleibt die Topologie erhalten &lt;br /&gt;
* es folgt die Amplifikation mittels PCR&lt;br /&gt;
&lt;br /&gt;
== 3. Sequenzierung/ Next generation Sequencing ==&lt;br /&gt;
* Sequenziertiefe bestimmt die Empfindlichkeit und die Genauigkeit&lt;br /&gt;
* 5 Millionen reads ausreichend für mittel-hoch exprimierte Gene&lt;br /&gt;
* 100 Millionen reads für schwach exprimierte Gene&lt;br /&gt;
* wichtig: Anzahl an Replikaten bestimmt statistische Sensitivität für Unterschiede&lt;br /&gt;
&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
| &amp;amp;nbsp;|| colspan=&amp;quot;3&amp;quot;| Replikate pro Gruppe&lt;br /&gt;
|-&lt;br /&gt;
| fold change|| 3|| 5|| 10&lt;br /&gt;
|-&lt;br /&gt;
| 1,25|| 17%|| 25%|| 44%&lt;br /&gt;
|-&lt;br /&gt;
| 1,5|| 43%|| 64%|| 91%&lt;br /&gt;
|-&lt;br /&gt;
| 2|| 87%|| 98%|| 100%&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
== 4. Datenanalyse ==&lt;br /&gt;
Präsprozessierung der Rohdaten: &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;amp;rArr;Filtern von Basen mit geringer Sequenzierqualität&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;amp;rArr; Trimmen von Adaptersequenzen und PCR-Primersequenzen&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;amp;rArr; Programme: FASTQC, NGSQC, Trimmomatic&lt;br /&gt;
&lt;br /&gt;
== 5. Read Alignment ==&lt;br /&gt;
[[File:Read-alignment.png|center|1000px]]&lt;br /&gt;
&lt;br /&gt;
=== SAM und BAM Format === &lt;br /&gt;
* Enthält Informationen über die Sequenz-reads nach dem Alignment an ein Referenzgenom.&lt;br /&gt;
* SAM= Sequence Alignment/Map &lt;br /&gt;
* BAM= Binary Alignment/Map&lt;br /&gt;
* SAM ist ein textbasiertes Dateiformat und BAM ein binäres Dateiformat.&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5_Transkriptom_RNA_Seq_2&amp;diff=937</id>
		<title>5 Transkriptom RNA Seq 2</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5_Transkriptom_RNA_Seq_2&amp;diff=937"/>
		<updated>2021-09-27T13:57:58Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* 4. Datenanalyse */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
= RNAseq =&lt;br /&gt;
RNA sequencing ist eine Methode zur Analyse von Transkriptomen. Hierbei wird die Sequenz aller in der Probe vorhandenen mRNA Moleküle durch Next-Generation Sequencing (NGS) ermittelt.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
== 1. Isolierung von mRNA ==&lt;br /&gt;
* nur 1-2% der totalen RNA ist mRNA&lt;br /&gt;
* 90% rRNA&lt;br /&gt;
* weil wir nur die mRNA isolieren wollen, müssen wir diese von der restlichen RNA trennen &lt;br /&gt;
* das ist entweder durch die sogennante poly(A) Anreicherung möglich, dabeimacht man sich die besondere Eigenschaft der mRNA zu nutze &lt;br /&gt;
* diese besitzt im Gegensatz zu anderen RNA Spezies einen polyA-Schwanz, immobilisiert man auf der Matrix einer Chromatofraphiesäule polyT-Seqeunezen, kann die mRNA komplementär an diese binden und kann so hufgereinigt werden &lt;br /&gt;
* die zweite Möglichkeit ist der spezifische Abbau von rRNA&lt;br /&gt;
* diese Vorgehensweise gewinnt vor allem bei Prokaryotischer mRNA an Bedeutung, bei der es keinen polyA-Schwanz gibt &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
== 2. cDNA Synthese und Library Präparation ==&lt;br /&gt;
*Information über kodierenden Strang kann durch 2-stufige cDNA Synthese und dUTP Nukleotiden konserviert werden.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
[[File:RNA-Seq.png|400px|center|thumb]]&lt;br /&gt;
&lt;br /&gt;
* Abbau des non-coding Stranges durch durch Uracil-DNA-Glykosylase&lt;br /&gt;
* baut spezifisch den non-coding Strang ab, weil dieser als einziger Uracil besitzt &lt;br /&gt;
* d.h. alle zum cDNA-Originalstrang komplementären Stränge werden abgebaut&lt;br /&gt;
* durch die Adapter bleibt die Topologie erhalten &lt;br /&gt;
* es folgt die Amplifikation mittels PCR&lt;br /&gt;
&lt;br /&gt;
== 3. Sequenzierung/ Next generation Sequencing ==&lt;br /&gt;
* Sequenziertiefe bestimmt die Empfindlichkeit und die Genauigkeit&lt;br /&gt;
* 5 Millionen reads ausreichend für mittel-hoch exprimierte Gene&lt;br /&gt;
* 100 Millionen reads für schwach exprimierte Gene&lt;br /&gt;
* wichtig: Anzahl an Replikaten bestimmt statistische Sensitivität für Unterschiede&lt;br /&gt;
&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
| &amp;amp;nbsp;|| colspan=&amp;quot;3&amp;quot;| Replikate pro Gruppe&lt;br /&gt;
|-&lt;br /&gt;
| fold change|| 3|| 5|| 10&lt;br /&gt;
|-&lt;br /&gt;
| 1,25|| 17%|| 25%|| 44%&lt;br /&gt;
|-&lt;br /&gt;
| 1,5|| 43%|| 64%|| 91%&lt;br /&gt;
|-&lt;br /&gt;
| 2|| 87%|| 98%|| 100%&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
== 4. Datenanalyse ==&lt;br /&gt;
Präsprozessierung der Rohdaten: &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;amp;rArr;Filtern von Basen mit geringer Sequenzierqualität&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;amp;rArr; Trimmen von Adaptersequenzen und PCR-Primersequenzen&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;amp;rArr; Programme: FASTQC, NGSQC, Trimmomatic&lt;br /&gt;
&lt;br /&gt;
== 5. Read Alignment ==&lt;br /&gt;
[[File:Read-alignment.png|center|1000px]]&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5_Transkriptom_RNA_Seq_2&amp;diff=936</id>
		<title>5 Transkriptom RNA Seq 2</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5_Transkriptom_RNA_Seq_2&amp;diff=936"/>
		<updated>2021-09-27T13:44:06Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* 2. cDNA Synthese und Library Präparation */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
= RNAseq =&lt;br /&gt;
RNA sequencing ist eine Methode zur Analyse von Transkriptomen. Hierbei wird die Sequenz aller in der Probe vorhandenen mRNA Moleküle durch Next-Generation Sequencing (NGS) ermittelt.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
== 1. Isolierung von mRNA ==&lt;br /&gt;
* nur 1-2% der totalen RNA ist mRNA&lt;br /&gt;
* 90% rRNA&lt;br /&gt;
* weil wir nur die mRNA isolieren wollen, müssen wir diese von der restlichen RNA trennen &lt;br /&gt;
* das ist entweder durch die sogennante poly(A) Anreicherung möglich, dabeimacht man sich die besondere Eigenschaft der mRNA zu nutze &lt;br /&gt;
* diese besitzt im Gegensatz zu anderen RNA Spezies einen polyA-Schwanz, immobilisiert man auf der Matrix einer Chromatofraphiesäule polyT-Seqeunezen, kann die mRNA komplementär an diese binden und kann so hufgereinigt werden &lt;br /&gt;
* die zweite Möglichkeit ist der spezifische Abbau von rRNA&lt;br /&gt;
* diese Vorgehensweise gewinnt vor allem bei Prokaryotischer mRNA an Bedeutung, bei der es keinen polyA-Schwanz gibt &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
== 2. cDNA Synthese und Library Präparation ==&lt;br /&gt;
*Information über kodierenden Strang kann durch 2-stufige cDNA Synthese und dUTP Nukleotiden konserviert werden.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
[[File:RNA-Seq.png|400px|center|thumb]]&lt;br /&gt;
&lt;br /&gt;
* Abbau des non-coding Stranges durch durch Uracil-DNA-Glykosylase&lt;br /&gt;
* baut spezifisch den non-coding Strang ab, weil dieser als einziger Uracil besitzt &lt;br /&gt;
* d.h. alle zum cDNA-Originalstrang komplementären Stränge werden abgebaut&lt;br /&gt;
* durch die Adapter bleibt die Topologie erhalten &lt;br /&gt;
* es folgt die Amplifikation mittels PCR&lt;br /&gt;
&lt;br /&gt;
== 3. Sequenzierung/ Next generation Sequencing ==&lt;br /&gt;
* Sequenziertiefe bestimmt die Empfindlichkeit und die Genauigkeit&lt;br /&gt;
* 5 Millionen reads ausreichend für mittel-hoch exprimierte Gene&lt;br /&gt;
* 100 Millionen reads für schwach exprimierte Gene&lt;br /&gt;
* wichtig: Anzahl an Replikaten bestimmt statistische Sensitivität für Unterschiede&lt;br /&gt;
&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
| &amp;amp;nbsp;|| colspan=&amp;quot;3&amp;quot;| Replikate pro Gruppe&lt;br /&gt;
|-&lt;br /&gt;
| fold change|| 3|| 5|| 10&lt;br /&gt;
|-&lt;br /&gt;
| 1,25|| 17%|| 25%|| 44%&lt;br /&gt;
|-&lt;br /&gt;
| 1,5|| 43%|| 64%|| 91%&lt;br /&gt;
|-&lt;br /&gt;
| 2|| 87%|| 98%|| 100%&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
== 4. Datenanalyse ==&lt;br /&gt;
Präsprozessierung der Rohdaten: &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;amp;rArr;Filtern von Basen mit geringer Qualität&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;amp;rArr; Trimmen von Adaptersequenzen und PCR-Primersequenzen&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;amp;rArr; Programme: FASTQC, NGSQC, Trimmomatic&lt;br /&gt;
&lt;br /&gt;
== 5. Read Alignment ==&lt;br /&gt;
[[File:Read-alignment.png|center|1000px]]&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5_Transkriptom_RNA_Seq_2&amp;diff=935</id>
		<title>5 Transkriptom RNA Seq 2</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=5_Transkriptom_RNA_Seq_2&amp;diff=935"/>
		<updated>2021-09-27T13:40:40Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* 2. cDNA Synthese und Library Präparation */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
= RNAseq =&lt;br /&gt;
RNA sequencing ist eine Methode zur Analyse von Transkriptomen. Hierbei wird die Sequenz aller in der Probe vorhandenen mRNA Moleküle durch Next-Generation Sequencing (NGS) ermittelt.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
== 1. Isolierung von mRNA ==&lt;br /&gt;
* nur 1-2% der totalen RNA ist mRNA&lt;br /&gt;
* 90% rRNA&lt;br /&gt;
* weil wir nur die mRNA isolieren wollen, müssen wir diese von der restlichen RNA trennen &lt;br /&gt;
* das ist entweder durch die sogennante poly(A) Anreicherung möglich, dabeimacht man sich die besondere Eigenschaft der mRNA zu nutze &lt;br /&gt;
* diese besitzt im Gegensatz zu anderen RNA Spezies einen polyA-Schwanz, immobilisiert man auf der Matrix einer Chromatofraphiesäule polyT-Seqeunezen, kann die mRNA komplementär an diese binden und kann so hufgereinigt werden &lt;br /&gt;
* die zweite Möglichkeit ist der spezifische Abbau von rRNA&lt;br /&gt;
* diese Vorgehensweise gewinnt vor allem bei Prokaryotischer mRNA an Bedeutung, bei der es keinen polyA-Schwanz gibt &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
== 2. cDNA Synthese und Library Präparation ==&lt;br /&gt;
*Information über kodierenden Strang kann durch 2-stufige cDNA Synthese und dUTP Nukleotiden konserviert werden.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
[[File:RNA-Seq.png|400px|center|thumb]]&lt;br /&gt;
&lt;br /&gt;
* Abbau des non Coding Stranges durch durch URacil-DNA-Glykosylase&lt;br /&gt;
* baut spezifisch den non coding Strang ab, weil dieser als einziger Uracil besitzt &lt;br /&gt;
* d.h. alle zum cDNA-Originalstrang komplementären Stränge werden abgebaut&lt;br /&gt;
* durch die Adapter bleibt die Topologie erhalten &lt;br /&gt;
* es folgt die Amplifikation mittels PCR&lt;br /&gt;
&lt;br /&gt;
== 3. Sequenzierung/ Next generation Sequencing ==&lt;br /&gt;
* Sequenziertiefe bestimmt die Empfindlichkeit und die Genauigkeit&lt;br /&gt;
* 5 Millionen reads ausreichend für mittel-hoch exprimierte Gene&lt;br /&gt;
* 100 Millionen reads für schwach exprimierte Gene&lt;br /&gt;
* wichtig: Anzahl an Replikaten bestimmt statistische Sensitivität für Unterschiede&lt;br /&gt;
&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
| &amp;amp;nbsp;|| colspan=&amp;quot;3&amp;quot;| Replikate pro Gruppe&lt;br /&gt;
|-&lt;br /&gt;
| fold change|| 3|| 5|| 10&lt;br /&gt;
|-&lt;br /&gt;
| 1,25|| 17%|| 25%|| 44%&lt;br /&gt;
|-&lt;br /&gt;
| 1,5|| 43%|| 64%|| 91%&lt;br /&gt;
|-&lt;br /&gt;
| 2|| 87%|| 98%|| 100%&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
== 4. Datenanalyse ==&lt;br /&gt;
Präsprozessierung der Rohdaten: &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;amp;rArr;Filtern von Basen mit geringer Qualität&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;amp;rArr; Trimmen von Adaptersequenzen und PCR-Primersequenzen&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;amp;rArr; Programme: FASTQC, NGSQC, Trimmomatic&lt;br /&gt;
&lt;br /&gt;
== 5. Read Alignment ==&lt;br /&gt;
[[File:Read-alignment.png|center|1000px]]&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:RNA-Seq.png&amp;diff=934</id>
		<title>File:RNA-Seq.png</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:RNA-Seq.png&amp;diff=934"/>
		<updated>2021-09-27T13:37:55Z</updated>

		<summary type="html">&lt;p&gt;Skl: Skl uploaded a new version of File:RNA-Seq.png&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:RNA-Seq.png&amp;diff=933</id>
		<title>File:RNA-Seq.png</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:RNA-Seq.png&amp;diff=933"/>
		<updated>2021-09-27T13:36:50Z</updated>

		<summary type="html">&lt;p&gt;Skl: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=4_Burrows-Wheeler&amp;diff=932</id>
		<title>4 Burrows-Wheeler</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=4_Burrows-Wheeler&amp;diff=932"/>
		<updated>2021-09-27T10:57:14Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* Alignment */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
== Burrows-Wheeler Transformation ==&lt;br /&gt;
Die Burrows-Wheeler Transformation wurde in der Informatik ursprünglich zur Optimierung von Daten-Kompression entwickelt.&amp;lt;br&amp;gt;&lt;br /&gt;
Sie eignet sich auch gut zur effizienten Suche großer Texte und somit zur Suche eines optimalen Alignments.&amp;lt;br&amp;gt;&lt;br /&gt;
Ein BWT basierender Algorithmus wird zur Assemblierung der “reads” einer RNASeq verwendet.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Vorteile'''&amp;lt;br&amp;gt;&lt;br /&gt;
* Sehr schnell und verbraucht wenig Speicher&amp;lt;br&amp;gt;&lt;br /&gt;
* Eine Rücktransformation ist verlustfrei möglich &amp;lt;br&amp;gt;&lt;br /&gt;
* Kein Informationsverlust beim Sortieren&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Transformation === &lt;br /&gt;
Beispiel an der Sequenz   TTCTAACTA$&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''1. Generierung aller cyclischen Verschiebungen '''&amp;lt;br&amp;gt;&lt;br /&gt;
Die Sequenz wird cyklisch um eine Stelle verschoben, bis die ursprüngliche Sequenz wieder erreicht ist.&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Burrows_Wheeler_zyklische_Verschiebung_.png|thumb|center]]&lt;br /&gt;
In rot ist der 'Suffix-Array' dargestellt.&lt;br /&gt;
&lt;br /&gt;
'''2. Sortierung'''&amp;lt;br&amp;gt;&lt;br /&gt;
Die cyklische Rotation wird alphabetisch sortiert, dabei hat das Sonderzeichen (in diesem Fall $) den niedrigsten Wert. (Wird also immer nach vorne gestellt, da es noch vor 1 bzw A kommt)&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Alphabetische_Sortierung_BWT.png|thumb|center]]&lt;br /&gt;
Die letzte Spalte wird als '''Burrows-Wheeler Transformation''' (BWT) bezeichnet.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Eigenschaften der BWT :'''&amp;lt;br&amp;gt;&lt;br /&gt;
* Hat die gleiche Länge, wie die Originalsequenz &amp;lt;br&amp;gt;&lt;br /&gt;
* Originalsequenz kann direkt aus BWT regeneriert werden&lt;br /&gt;
&lt;br /&gt;
=== Rücktransformation - Last-First Zuordnung ===&lt;br /&gt;
Aus der BWT lässt sich die Originalsequenz rekonstruieren. Die Rekonstruktion folgt dem Prinzip:&lt;br /&gt;
Die 'i'te Position des Buchstaben x in der letzten Spalte (Transformation) entspricht der 'i'ten Position in der 1. Spalte&amp;lt;br&amp;gt;&lt;br /&gt;
Der erste Schritt die die Wiederherstellung der ersten Spalte. Da es sich um die alphabetisch sortierten Sequenzen gehandelt hat, lässt sich die erste Spalte einfach durch eine erneute alphabetische Sortierung der BWT wiederherstellen. Um die Originalsequenz zu erhalten, startet man in der ersten Zeile. Von der ersten Zeile wissen wir, dass es sich um die Originalsequenz handelt (außer, dass das Sonderzeichen vorne steht), d.h. auch der letzte Buchstabe der ersten Zeile entspricht dem letzten Element in der Originalsequenz. Hier mit einem gelben Kästchen markiert. Auch die Indexzahl 9 kann dem Buchstaben zugeordnet werden, da es sich um den letzten Buchstaben handelt. Von dort ausgehend kann das oben genannte Prinzip zur Rekonstruktion angewendet werden. Demnach entspricht die erste Position (es handelt sich um das erste A in der BWT) des Buchstabens &amp;quot;A&amp;quot; in der letzten Spalte, dem ersten &amp;quot;A&amp;quot; in der ersten Spalte. Es handelt sich also um das selbe &amp;quot;A&amp;quot; (gekennzeichnet durch den schwarzen diagonal verlaufenden Pfeil). Demnach ist das A in der ersten Spalte (hier zweite Zeile) die zyklische Verschiebung des A in der letzen Spalte (erste Zeile). Logischerweise ist damit der letzte Buchstabe der zweiten Zeile, der Buchstabe der in der Originalsequenz vor dem &amp;quot;A&amp;quot; kommt. Das &amp;quot;T&amp;quot; kann also vor das &amp;quot;A&amp;quot; geschrieben werden und den Index 8 bekommen, usw. &lt;br /&gt;
&lt;br /&gt;
[[File:Rücktransformation.png|200px|thumb|center|Rücktransformation]]&lt;br /&gt;
&lt;br /&gt;
=== Alignment === &lt;br /&gt;
Die Eigenschaften der Burrows-Wheeler Transformation erlauben es, eine Sequenz in der Originalsequenz zu suchen, das heißt ein Alginment durchzuführen, obwohl nur die BWT bekannt ist. &lt;br /&gt;
In diesem Beispiel wird nach der Sequenz 'ACTA' in der Originalsequenz gesucht. Da nur die BWT gegeben ist, wird zuerst die erste Spalte durch alphabetische Sortierung generiert. Daraus kann wieder die Originalsequenz mit den Indexzahlen generiert werden. &amp;lt;br&amp;gt;&lt;br /&gt;
Um das Alignemnt durchzuführen, suchen wir den letzten Buchstabe der zu alignenden Sequenz &amp;quot;ACTA&amp;quot;, in der ersten Spalte. In unserem Bespiel, finden wir drei &amp;quot;A&amp;quot;. Weil in der gesuchten Sequenz vor &amp;quot;A&amp;quot; ein &amp;quot;T&amp;quot; kommt und der letzte Buchstabe der Zeile, immer der  vorangegangene Buchstabe in der Originalsequenz ist, verfolgt man die beiden Zeilen, die ein &amp;quot;T&amp;quot; am Ende besitzen (hier also die ersten beiden Zeilen, die mit einem A beginnen). Dann sucht man die Zeilen, die mit einem &amp;quot;T&amp;quot; beginnen und ein &amp;quot;C&amp;quot; am Ende der Zeile haben. So geht man die gesamte gesuchte Sequenz durch. &lt;br /&gt;
Der Suffix-Array an dieser letzten Position ist '6'. Demzufolge beginnt die gesuchte Sequenz an der 6.Position in der Originalsequenz.&lt;br /&gt;
[[File:Alignment BWT.png|thumb|center]]&lt;br /&gt;
&lt;br /&gt;
Diese Burrows-Wheeler Transformation kann mit jeder beliebigen Sequenz durchgeführt werden und ermöglicht eine effektive Suche nach einem lokalen Alignment.&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:Alignment_BWT.png&amp;diff=931</id>
		<title>File:Alignment BWT.png</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:Alignment_BWT.png&amp;diff=931"/>
		<updated>2021-09-27T10:56:40Z</updated>

		<summary type="html">&lt;p&gt;Skl: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=4_Burrows-Wheeler&amp;diff=930</id>
		<title>4 Burrows-Wheeler</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=4_Burrows-Wheeler&amp;diff=930"/>
		<updated>2021-09-27T10:16:14Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* Transformation */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
== Burrows-Wheeler Transformation ==&lt;br /&gt;
Die Burrows-Wheeler Transformation wurde in der Informatik ursprünglich zur Optimierung von Daten-Kompression entwickelt.&amp;lt;br&amp;gt;&lt;br /&gt;
Sie eignet sich auch gut zur effizienten Suche großer Texte und somit zur Suche eines optimalen Alignments.&amp;lt;br&amp;gt;&lt;br /&gt;
Ein BWT basierender Algorithmus wird zur Assemblierung der “reads” einer RNASeq verwendet.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Vorteile'''&amp;lt;br&amp;gt;&lt;br /&gt;
* Sehr schnell und verbraucht wenig Speicher&amp;lt;br&amp;gt;&lt;br /&gt;
* Eine Rücktransformation ist verlustfrei möglich &amp;lt;br&amp;gt;&lt;br /&gt;
* Kein Informationsverlust beim Sortieren&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Transformation === &lt;br /&gt;
Beispiel an der Sequenz   TTCTAACTA$&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''1. Generierung aller cyclischen Verschiebungen '''&amp;lt;br&amp;gt;&lt;br /&gt;
Die Sequenz wird cyklisch um eine Stelle verschoben, bis die ursprüngliche Sequenz wieder erreicht ist.&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Burrows_Wheeler_zyklische_Verschiebung_.png|thumb|center]]&lt;br /&gt;
In rot ist der 'Suffix-Array' dargestellt.&lt;br /&gt;
&lt;br /&gt;
'''2. Sortierung'''&amp;lt;br&amp;gt;&lt;br /&gt;
Die cyklische Rotation wird alphabetisch sortiert, dabei hat das Sonderzeichen (in diesem Fall $) den niedrigsten Wert. (Wird also immer nach vorne gestellt, da es noch vor 1 bzw A kommt)&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Alphabetische_Sortierung_BWT.png|thumb|center]]&lt;br /&gt;
Die letzte Spalte wird als '''Burrows-Wheeler Transformation''' (BWT) bezeichnet.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Eigenschaften der BWT :'''&amp;lt;br&amp;gt;&lt;br /&gt;
* Hat die gleiche Länge, wie die Originalsequenz &amp;lt;br&amp;gt;&lt;br /&gt;
* Originalsequenz kann direkt aus BWT regeneriert werden&lt;br /&gt;
&lt;br /&gt;
=== Rücktransformation - Last-First Zuordnung ===&lt;br /&gt;
Aus der BWT lässt sich die Originalsequenz rekonstruieren. Die Rekonstruktion folgt dem Prinzip:&lt;br /&gt;
Die 'i'te Position des Buchstaben x in der letzten Spalte (Transformation) entspricht der 'i'ten Position in der 1. Spalte&amp;lt;br&amp;gt;&lt;br /&gt;
Der erste Schritt die die Wiederherstellung der ersten Spalte. Da es sich um die alphabetisch sortierten Sequenzen gehandelt hat, lässt sich die erste Spalte einfach durch eine erneute alphabetische Sortierung der BWT wiederherstellen. Um die Originalsequenz zu erhalten, startet man in der ersten Zeile. Von der ersten Zeile wissen wir, dass es sich um die Originalsequenz handelt (außer, dass das Sonderzeichen vorne steht), d.h. auch der letzte Buchstabe der ersten Zeile entspricht dem letzten Element in der Originalsequenz. Hier mit einem gelben Kästchen markiert. Auch die Indexzahl 9 kann dem Buchstaben zugeordnet werden, da es sich um den letzten Buchstaben handelt. Von dort ausgehend kann das oben genannte Prinzip zur Rekonstruktion angewendet werden. Demnach entspricht die erste Position (es handelt sich um das erste A in der BWT) des Buchstabens &amp;quot;A&amp;quot; in der letzten Spalte, dem ersten &amp;quot;A&amp;quot; in der ersten Spalte. Es handelt sich also um das selbe &amp;quot;A&amp;quot; (gekennzeichnet durch den schwarzen diagonal verlaufenden Pfeil). Demnach ist das A in der ersten Spalte (hier zweite Zeile) die zyklische Verschiebung des A in der letzen Spalte (erste Zeile). Logischerweise ist damit der letzte Buchstabe der zweiten Zeile, der Buchstabe der in der Originalsequenz vor dem &amp;quot;A&amp;quot; kommt. Das &amp;quot;T&amp;quot; kann also vor das &amp;quot;A&amp;quot; geschrieben werden und den Index 8 bekommen, usw. &lt;br /&gt;
&lt;br /&gt;
[[File:Rücktransformation.png|200px|thumb|center|Rücktransformation]]&lt;br /&gt;
&lt;br /&gt;
=== Alignment === &lt;br /&gt;
&lt;br /&gt;
In diesem Beispiel wird nach der Sequenz 'AAC' in der Originalsequenz T gesucht. Dafür werden wieder nur die erste und letzte Spalte der alphabetischen Sortierung benötigt. &amp;lt;br&amp;gt;&lt;br /&gt;
Begonnen wird mit der Suche des ersten Zeichens der gesuchten Sequenz 'C', in der ersten Spalte. Das Intervall wird auf die letzte Spalte, der gleichen Zeilen übertragen. &lt;br /&gt;
[[File:Alignment1.png|thumb|center]]&lt;br /&gt;
Das nächste gesuchte Zeichen ist ein 'A', beide Zeichen des Intervalls stimmen damit überein. Da es das 2. und 3. 'A' in dieser Spalte sind, wird wieder in der ersten Spalte nach den entsprechenden Zeichen gesucht. Das nächste Zeichen der gesuchten Sequenz ist ein 'A', da dieses in den entsprechenden Zeilen nur ein mal vorkommt, wird das Intervall verkleinert und somit so angepasst, dass nur die gesuchten Zeichen darin vorkommen. &lt;br /&gt;
[[File:Alignment2.png|thumb|center]]&lt;br /&gt;
&lt;br /&gt;
Der Suffix-Array an dieser Position ist '3'. Demzufolge beginnt die gesuchte Sequenz an der 3.Position in der Originalsequenz.&lt;br /&gt;
[[File:Alignment3.png|thumb|center]]&lt;br /&gt;
&lt;br /&gt;
Diese Burrows-Wheeler Transformation kann mit jeder beliebigen Sequenz durchgeführt werden und ermöglicht eine effektive Suche nach einem lokalen Alignment.&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=4_Burrows-Wheeler&amp;diff=929</id>
		<title>4 Burrows-Wheeler</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=4_Burrows-Wheeler&amp;diff=929"/>
		<updated>2021-09-27T10:15:35Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* Transformation */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
== Burrows-Wheeler Transformation ==&lt;br /&gt;
Die Burrows-Wheeler Transformation wurde in der Informatik ursprünglich zur Optimierung von Daten-Kompression entwickelt.&amp;lt;br&amp;gt;&lt;br /&gt;
Sie eignet sich auch gut zur effizienten Suche großer Texte und somit zur Suche eines optimalen Alignments.&amp;lt;br&amp;gt;&lt;br /&gt;
Ein BWT basierender Algorithmus wird zur Assemblierung der “reads” einer RNASeq verwendet.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Vorteile'''&amp;lt;br&amp;gt;&lt;br /&gt;
* Sehr schnell und verbraucht wenig Speicher&amp;lt;br&amp;gt;&lt;br /&gt;
* Eine Rücktransformation ist verlustfrei möglich &amp;lt;br&amp;gt;&lt;br /&gt;
* Kein Informationsverlust beim Sortieren&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Transformation === &lt;br /&gt;
Beispiel an der Sequenz   TTCTAACTA$&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''1. Generierung aller cyclischen Verschiebungen '''&amp;lt;br&amp;gt;&lt;br /&gt;
Die Sequenz wird cyklisch um eine Stelle verschoben, bis die ursprüngliche Sequenz wieder erreicht ist.&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Burrows_Wheeler_zyklische_Verschiebung_.png|thumb|center]]&lt;br /&gt;
In rot ist der 'Suffix-Array' dargestellt.&lt;br /&gt;
&lt;br /&gt;
'''2. Sortierung'''&amp;lt;br&amp;gt;&lt;br /&gt;
Die cyklische Rotation von 'T' wird alphabetisch sortiert, dabei hat das Sonderzeichen (in diesem Fall $) den niedrigsten Wert. (Wird also immer nach vorne gestellt, da es noch vor 1 bzw A kommt)&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Alphabetische_Sortierung_BWT.png|thumb|center]]&lt;br /&gt;
Die letzte Spalte wird als '''Burrows-Wheeler Transformation''' (BWT) bezeichnet.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Eigenschaften der BWT :'''&amp;lt;br&amp;gt;&lt;br /&gt;
* Hat die gleiche Länge, wie die Originalsequenz &amp;lt;br&amp;gt;&lt;br /&gt;
* Originalsequenz T kann direkt aus BWT regeneriert werden&lt;br /&gt;
&lt;br /&gt;
=== Rücktransformation - Last-First Zuordnung ===&lt;br /&gt;
Aus der BWT lässt sich die Originalsequenz rekonstruieren. Die Rekonstruktion folgt dem Prinzip:&lt;br /&gt;
Die 'i'te Position des Buchstaben x in der letzten Spalte (Transformation) entspricht der 'i'ten Position in der 1. Spalte&amp;lt;br&amp;gt;&lt;br /&gt;
Der erste Schritt die die Wiederherstellung der ersten Spalte. Da es sich um die alphabetisch sortierten Sequenzen gehandelt hat, lässt sich die erste Spalte einfach durch eine erneute alphabetische Sortierung der BWT wiederherstellen. Um die Originalsequenz zu erhalten, startet man in der ersten Zeile. Von der ersten Zeile wissen wir, dass es sich um die Originalsequenz handelt (außer, dass das Sonderzeichen vorne steht), d.h. auch der letzte Buchstabe der ersten Zeile entspricht dem letzten Element in der Originalsequenz. Hier mit einem gelben Kästchen markiert. Auch die Indexzahl 9 kann dem Buchstaben zugeordnet werden, da es sich um den letzten Buchstaben handelt. Von dort ausgehend kann das oben genannte Prinzip zur Rekonstruktion angewendet werden. Demnach entspricht die erste Position (es handelt sich um das erste A in der BWT) des Buchstabens &amp;quot;A&amp;quot; in der letzten Spalte, dem ersten &amp;quot;A&amp;quot; in der ersten Spalte. Es handelt sich also um das selbe &amp;quot;A&amp;quot; (gekennzeichnet durch den schwarzen diagonal verlaufenden Pfeil). Demnach ist das A in der ersten Spalte (hier zweite Zeile) die zyklische Verschiebung des A in der letzen Spalte (erste Zeile). Logischerweise ist damit der letzte Buchstabe der zweiten Zeile, der Buchstabe der in der Originalsequenz vor dem &amp;quot;A&amp;quot; kommt. Das &amp;quot;T&amp;quot; kann also vor das &amp;quot;A&amp;quot; geschrieben werden und den Index 8 bekommen, usw. &lt;br /&gt;
&lt;br /&gt;
[[File:Rücktransformation.png|200px|thumb|center|Rücktransformation]]&lt;br /&gt;
&lt;br /&gt;
=== Alignment === &lt;br /&gt;
&lt;br /&gt;
In diesem Beispiel wird nach der Sequenz 'AAC' in der Originalsequenz T gesucht. Dafür werden wieder nur die erste und letzte Spalte der alphabetischen Sortierung benötigt. &amp;lt;br&amp;gt;&lt;br /&gt;
Begonnen wird mit der Suche des ersten Zeichens der gesuchten Sequenz 'C', in der ersten Spalte. Das Intervall wird auf die letzte Spalte, der gleichen Zeilen übertragen. &lt;br /&gt;
[[File:Alignment1.png|thumb|center]]&lt;br /&gt;
Das nächste gesuchte Zeichen ist ein 'A', beide Zeichen des Intervalls stimmen damit überein. Da es das 2. und 3. 'A' in dieser Spalte sind, wird wieder in der ersten Spalte nach den entsprechenden Zeichen gesucht. Das nächste Zeichen der gesuchten Sequenz ist ein 'A', da dieses in den entsprechenden Zeilen nur ein mal vorkommt, wird das Intervall verkleinert und somit so angepasst, dass nur die gesuchten Zeichen darin vorkommen. &lt;br /&gt;
[[File:Alignment2.png|thumb|center]]&lt;br /&gt;
&lt;br /&gt;
Der Suffix-Array an dieser Position ist '3'. Demzufolge beginnt die gesuchte Sequenz an der 3.Position in der Originalsequenz.&lt;br /&gt;
[[File:Alignment3.png|thumb|center]]&lt;br /&gt;
&lt;br /&gt;
Diese Burrows-Wheeler Transformation kann mit jeder beliebigen Sequenz durchgeführt werden und ermöglicht eine effektive Suche nach einem lokalen Alignment.&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=4_Burrows-Wheeler&amp;diff=928</id>
		<title>4 Burrows-Wheeler</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=4_Burrows-Wheeler&amp;diff=928"/>
		<updated>2021-09-27T10:15:16Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* Transformation */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
== Burrows-Wheeler Transformation ==&lt;br /&gt;
Die Burrows-Wheeler Transformation wurde in der Informatik ursprünglich zur Optimierung von Daten-Kompression entwickelt.&amp;lt;br&amp;gt;&lt;br /&gt;
Sie eignet sich auch gut zur effizienten Suche großer Texte und somit zur Suche eines optimalen Alignments.&amp;lt;br&amp;gt;&lt;br /&gt;
Ein BWT basierender Algorithmus wird zur Assemblierung der “reads” einer RNASeq verwendet.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Vorteile'''&amp;lt;br&amp;gt;&lt;br /&gt;
* Sehr schnell und verbraucht wenig Speicher&amp;lt;br&amp;gt;&lt;br /&gt;
* Eine Rücktransformation ist verlustfrei möglich &amp;lt;br&amp;gt;&lt;br /&gt;
* Kein Informationsverlust beim Sortieren&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Transformation === &lt;br /&gt;
Beispiel an der Sequenz   TTCTAACTA$&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''1. Generierung aller cyclischen Verschiebungen von T'''&amp;lt;br&amp;gt;&lt;br /&gt;
Die Sequenz wird cyklisch um eine Stelle verschoben, bis die ursprüngliche Sequenz wieder erreicht ist.&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Burrows_Wheeler_zyklische_Verschiebung_.png|thumb|center]]&lt;br /&gt;
In rot ist der 'Suffix-Array' dargestellt.&lt;br /&gt;
&lt;br /&gt;
'''2. Sortierung'''&amp;lt;br&amp;gt;&lt;br /&gt;
Die cyklische Rotation von 'T' wird alphabetisch sortiert, dabei hat das Sonderzeichen (in diesem Fall $) den niedrigsten Wert. (Wird also immer nach vorne gestellt, da es noch vor 1 bzw A kommt)&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Alphabetische_Sortierung_BWT.png|thumb|center]]&lt;br /&gt;
Die letzte Spalte wird als '''Burrows-Wheeler Transformation''' (BWT) bezeichnet.&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Eigenschaften der BWT :'''&amp;lt;br&amp;gt;&lt;br /&gt;
* Hat die gleiche Länge, wie die Originalsequenz &amp;lt;br&amp;gt;&lt;br /&gt;
* Originalsequenz T kann direkt aus BWT regeneriert werden&lt;br /&gt;
&lt;br /&gt;
=== Rücktransformation - Last-First Zuordnung ===&lt;br /&gt;
Aus der BWT lässt sich die Originalsequenz rekonstruieren. Die Rekonstruktion folgt dem Prinzip:&lt;br /&gt;
Die 'i'te Position des Buchstaben x in der letzten Spalte (Transformation) entspricht der 'i'ten Position in der 1. Spalte&amp;lt;br&amp;gt;&lt;br /&gt;
Der erste Schritt die die Wiederherstellung der ersten Spalte. Da es sich um die alphabetisch sortierten Sequenzen gehandelt hat, lässt sich die erste Spalte einfach durch eine erneute alphabetische Sortierung der BWT wiederherstellen. Um die Originalsequenz zu erhalten, startet man in der ersten Zeile. Von der ersten Zeile wissen wir, dass es sich um die Originalsequenz handelt (außer, dass das Sonderzeichen vorne steht), d.h. auch der letzte Buchstabe der ersten Zeile entspricht dem letzten Element in der Originalsequenz. Hier mit einem gelben Kästchen markiert. Auch die Indexzahl 9 kann dem Buchstaben zugeordnet werden, da es sich um den letzten Buchstaben handelt. Von dort ausgehend kann das oben genannte Prinzip zur Rekonstruktion angewendet werden. Demnach entspricht die erste Position (es handelt sich um das erste A in der BWT) des Buchstabens &amp;quot;A&amp;quot; in der letzten Spalte, dem ersten &amp;quot;A&amp;quot; in der ersten Spalte. Es handelt sich also um das selbe &amp;quot;A&amp;quot; (gekennzeichnet durch den schwarzen diagonal verlaufenden Pfeil). Demnach ist das A in der ersten Spalte (hier zweite Zeile) die zyklische Verschiebung des A in der letzen Spalte (erste Zeile). Logischerweise ist damit der letzte Buchstabe der zweiten Zeile, der Buchstabe der in der Originalsequenz vor dem &amp;quot;A&amp;quot; kommt. Das &amp;quot;T&amp;quot; kann also vor das &amp;quot;A&amp;quot; geschrieben werden und den Index 8 bekommen, usw. &lt;br /&gt;
&lt;br /&gt;
[[File:Rücktransformation.png|200px|thumb|center|Rücktransformation]]&lt;br /&gt;
&lt;br /&gt;
=== Alignment === &lt;br /&gt;
&lt;br /&gt;
In diesem Beispiel wird nach der Sequenz 'AAC' in der Originalsequenz T gesucht. Dafür werden wieder nur die erste und letzte Spalte der alphabetischen Sortierung benötigt. &amp;lt;br&amp;gt;&lt;br /&gt;
Begonnen wird mit der Suche des ersten Zeichens der gesuchten Sequenz 'C', in der ersten Spalte. Das Intervall wird auf die letzte Spalte, der gleichen Zeilen übertragen. &lt;br /&gt;
[[File:Alignment1.png|thumb|center]]&lt;br /&gt;
Das nächste gesuchte Zeichen ist ein 'A', beide Zeichen des Intervalls stimmen damit überein. Da es das 2. und 3. 'A' in dieser Spalte sind, wird wieder in der ersten Spalte nach den entsprechenden Zeichen gesucht. Das nächste Zeichen der gesuchten Sequenz ist ein 'A', da dieses in den entsprechenden Zeilen nur ein mal vorkommt, wird das Intervall verkleinert und somit so angepasst, dass nur die gesuchten Zeichen darin vorkommen. &lt;br /&gt;
[[File:Alignment2.png|thumb|center]]&lt;br /&gt;
&lt;br /&gt;
Der Suffix-Array an dieser Position ist '3'. Demzufolge beginnt die gesuchte Sequenz an der 3.Position in der Originalsequenz.&lt;br /&gt;
[[File:Alignment3.png|thumb|center]]&lt;br /&gt;
&lt;br /&gt;
Diese Burrows-Wheeler Transformation kann mit jeder beliebigen Sequenz durchgeführt werden und ermöglicht eine effektive Suche nach einem lokalen Alignment.&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2_Transkriptom_RNA_Seq_1&amp;diff=927</id>
		<title>2 Transkriptom RNA Seq 1</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2_Transkriptom_RNA_Seq_1&amp;diff=927"/>
		<updated>2021-09-27T08:58:51Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* Lander-Waterman-Modell */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
== Biologische Fragestellung ==&lt;br /&gt;
Das NAT8L Gen scheint im Metabolismus von Krebszellen eine Rolle zu spielen. Unser Projekt befasst sich mit Lungenkrebs. Daraus folgt die Frage: Ist NAT8L in Lungenkrebszellen erhöht exprimiert ? &amp;lt;br&amp;gt;&lt;br /&gt;
Die Frage impliziert weitere Überlegungen z.B. ob NAT8L essentiell für das Wachstum von Krebszellen ist und ob eine Inhibierung der NAT8L Expression die Tumorbildung hemmen würde. &lt;br /&gt;
&lt;br /&gt;
Um die Frage zu beantworten sind folgende drei Schritte notwendig: &amp;lt;br&amp;gt;&lt;br /&gt;
Schritt 1: &lt;br /&gt;
* Abfragen von Datenbanken (vielleicht wurden bereits ähnliche Experimente durchgeführt) &amp;lt;br&amp;gt;&lt;br /&gt;
Schritt 2: &lt;br /&gt;
* aus Datenbanken haben wir herausgefunden, dass NAT8L in Lungenkrebszellen erhöht expliziert wird &amp;lt;br&amp;gt;&lt;br /&gt;
Schritt 3: &lt;br /&gt;
* in einem Experiment soll versucht werden die Genexpression durch RNAi (RNA interference) zu silencen&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
[[File:Experiment_Skizze.jpg|400px|center|thumb]]&lt;br /&gt;
* aus zwei Tumorzellkulturen wird die mRNA extrahiert&lt;br /&gt;
* mit Hilfe der reversen Transkriptase wird cDNA transkribiert&lt;br /&gt;
* cDNA wird sequenziert&lt;br /&gt;
* Sequenzunterschiede können analysiert werden &amp;lt;br&amp;gt;&lt;br /&gt;
Dem Experiment liegt die Transkriptomanalyse zugrunde, welche eine quantitative und qualitative Bestimmung aller Transkriptionsaktivitäten ermöglicht. D.h. die Erfassung aller mRNA-Moleküle, wodurch auf die Aktivität bestimmter Gene unter bestimmten Bedingungen zurückschließen lässt. Eine Trannskriptomanalyse (also die Erfassung der Gesamtheit aller in einer Zelle unter einer bestimmte Bedingung erzeugten mRNA Moleküle) lässt sich auf verschiedene Weisen durchführen. Eine Möglichkeit ist ein DNA-Microarray (s. unten). Eine andere Möglichkeit ist die RNA-Sequenzierung. Zum Ablauf RNA-Sequenzierung vergleiche [[5_Transkriptom RNA Seq 2]]. Für beide Analysemethoden ist jedoch die gleiche sample preparation notwendig. &lt;br /&gt;
# mRNA Extraktion aus dem Organismus &lt;br /&gt;
# mRNA wird durch Reverse Transkriptase zu cDNA umgeschrieben &lt;br /&gt;
→ dann folgt die Expressionsanalyse durch genannte Methoden&lt;br /&gt;
&lt;br /&gt;
== Sequenzierung ==&lt;br /&gt;
Für die quantitativen und qualitativen Bestimmungen von Sequenzen bei der Transkriptomanalyse durch die RNA-Sequenzierung müssen, wie der Name schon verrät, die cDNA-Sequenzen sequenziert werden. Hierfür werden die NGS Methoden wie Illumina verwendet. &lt;br /&gt;
&lt;br /&gt;
=== '''N'''ext '''G'''eneration '''S'''equencing (NGS) ===&lt;br /&gt;
==== Illumina Sequencing (2nd Generation Sequencing) ====&lt;br /&gt;
&lt;br /&gt;
[[File:Cluster Generation.png|center|thumb|600px|1. Nach der Fragmentierung und Legierung der Adapter-Molekülen, heften sich die Fragmente an komplementäre Adaptersequenzen in der &amp;quot;flow cell&amp;quot;. 2. Die DNA biegt sich um den zweiten Adapter zu hybridisieren. 3-4. Die Polymerase synthetisiert den komplementären Strang. 5. Die Stränge denaturieren und bilden neue Brücken. Das Resultat sind Cluster der DNA-Stränge.]]&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Ergebnis der Illumina Sequenzierung:&lt;br /&gt;
* Länge der reads 50-600bp&lt;br /&gt;
* Fehlerrate ca. 0,1%&lt;br /&gt;
* humanes Genom kann 30x am Tag sequenziert werden&lt;br /&gt;
* Daten werden in FASTQ Format geliefert&lt;br /&gt;
&lt;br /&gt;
== FASTQ ==&lt;br /&gt;
Die NGS-Sequenzierergebnisse werden in diesem textbasierten-Format geliefert, dass zur Speicherung von DNA/RNA-Sequenzen dient.&lt;br /&gt;
Eine FASTQ-Datei ist folgendermaßen aufgebaut: &amp;lt;/br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 @ Identifier  # Sequenz identifier&lt;br /&gt;
 GATCTT        # Sequenz&lt;br /&gt;
 +             # optionale Beschreibung&lt;br /&gt;
 !'CC'*+*!?    # Qualität jedes Nukleotids (Zahlenwert repräsentiert durch [https://de.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange#ASCII-Tabelle ASCII Tabelle])&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Problem ===&lt;br /&gt;
Viele kurze reads, die in einen Zusammenhang gebracht werden müssen! Um Lücken in der Sequenz zu vermeiden, muss die Sequenziertiefe angepasst werden.&lt;br /&gt;
&lt;br /&gt;
== Microarrays ==&lt;br /&gt;
In Zuge dieser Vorlesung wird unter Microarrays die DNA-Chip Microarray-Methode verstanden. Mit dieser molekularbiologischen Methode lässt sich der Grad der Genexpression in einem Organismus von einer großen Anzahl an Genen gleichzeitig messen. Es wird also gemessen, welche Gene unter welchen Bedingungen wie stark aktiv sind. Stellt Damit eine alternative zur RNA-Seq. dar, bei der die Auswertung mit Hilfe von NGS erfolgt. &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Ablauf ===&lt;br /&gt;
Auf einer Oberfläche z.B. Glas befinden sich in einer bestimmten Anordnung immobilisierte DNA-Fragmente, so dass die Sequenz der DNA-Fragmente an jeder Position bekannt ist. Diese kurzen Oligonucleotide sind Sequenzabschnitte bekannter Gene des zu untersuchenden Organismus und deshalb komplementär zu cDNA-Sequenzen, dessen qualitative und quantitative Expression überprüft werden soll. Wobei sich nicht nur um ein Oliginukleotid sondern um eine große Anzahl der selben Oligonucleotide auf einen spot handelt. Nach der sample preparation erhält man cDNA. Die einzelsträngige cDNA ist floureszens markiert. Die Markierung kann z.B. durch die Verwendung von bereits floureszenzmarkierten dNTPs während der cDNA-Synthese erfolgen. Die cDNA der Probe wird auf den Chip aufgetragen und hybridisiert mit den komplementären Sequenzen. Nach der Fixierung werden die ungebundenen cDNA-Stränge heruntergewaschen. Überall dort wo dann Floureszenz zu messen ist, hat die cDNA an die komplementäre Oligonucleotid gebunden. Weil bekannt ist an welcher Stelle, welches Gensequenzoligonukleotid immobilisiert ist, kann so darauf geschlossen werden, welche Gene im untersuchten Organsimus exprimiert wurden. Die Intensität der Floureszenz korreliert mit der Anzahl an gebundenen cDNA Strängen pro Spot, wass wiederum mit dem Expressionslevel des Gens korreliert. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Hauptsächlich werden sie genutzt um mehrer Proben gleichzeitig zu Vergleichen. Wobei es sich um den vergleich der Genexpressionsmuster unter versch. Bedingungen handelt. &lt;br /&gt;
Man unterscheidet dabei zwei Herangehensweisen: &amp;lt;br&amp;gt;&lt;br /&gt;
One-color technique: &amp;lt;br&amp;gt;&lt;br /&gt;
Die cDNA von zwei verscheiden Proben werden mit unterschiedlichen Farben markiert. Die Proben werden jeweils auf ein Mikroarray gegeben und hybridisieren dort. Die Auswertung erfolgt indem die Bilder der Microarrays übereinander gelegt werden. Dort wo nur cDNA einer Probe gebunden hat, ist die entsprechende Farbe der Probe zu beobachten, dort wo beide gebunden haben, ist eine Farbe zu beobachten, die sich aus der Mischung beider einzelnen Probenfarben ergibt. &amp;lt;br&amp;gt;&lt;br /&gt;
Two-color technique: &amp;lt;br&amp;gt;&lt;br /&gt;
Die cDNA von zwei verschiedenen Proben werden mit unterschiedlichen Farben markiert. Die zwei Proben werden dann zusammengemsicht und auf einen DNA Chip gegeben und hybridisieren dort kompetitiv. Dort wo nur cDNA einer Probe gebunden hat, ist die entsprechende Farbe der Probe zu beobachten, dort wo beide gebunden haben, ist eine Farbe zu beobachten, die sich aus der Mischung beider einzelnen Probenfarben ergibt. &lt;br /&gt;
&lt;br /&gt;
[[File:Cdnaarray.jpg|thumb|center|Ausschnitt aus einem cDNA-Microarraychip]]&lt;br /&gt;
==== Nachteile ====&lt;br /&gt;
Die Microarray-Technologie tritt heutzutage etwas in den Hintergrund, da die Methode einigen Einschränkungen unterliegt. Zum einen löst das Microarray die Sequenz nicht auf die Einzelbase auf, weshalb Mutanten und Splicevarianten oftmals nicht bestimmt werden können. Dies liegt daran, dass auch Sequenzen hybridisieren, die nicht 100% übereinstimmen. Außerdem beruht die Methode auf optischer Messung, was bedeutet, dass ein gewisses Maß an Hintergrundrauschen unvermeidbar ist und eine Messuntergrenze besteht. Somit kann es vorkommen, dass geringe Mengen an bestimmten Sequenzen nicht nachgewiesen werden können. Diese Methode besitzt zudem eine Messobergrenze, denn wenn alle Sonden in einem Spot hybridisiert haben, kann weitere komplementäre cDNA nicht binden und verfällt wenn sie herunter gewaschen wird. Zudem können nur Proben von  Organismen verwendet werden, bei denen die Sequenz bereits bekannt ist.&lt;br /&gt;
&lt;br /&gt;
== Assembly ==&lt;br /&gt;
Assembly ist ein Bioinformatisches Verfahren, bei dem überlappende reads zu Contiqs und anschließend zu Scaffolds zusammengesetzt werden. Wenn das Genom bereits bekannt ist können die Scaffolds an ein Referenzgenom aligned werden, wobei man diese Art der Assemblierung als Alignment oder Assemblierung mit Hilfe eines Referenzgenoms bezeichnet. Liegt keine Referenz vor, bezeichnet man sie als de novo Assemblierung. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Assembly.jpg|600px|center|thumb]]&lt;br /&gt;
&lt;br /&gt;
Contiq: Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken.&lt;br /&gt;
&lt;br /&gt;
Scaffold: Bestehend aus Contiqs und Lücken (auch Supercontiqs genannt); definieren die Reihenfolge, Orientierung und Größe der Lücken zwischen den Contiqs.&lt;br /&gt;
&lt;br /&gt;
Beim NGS wird eine gewünschte Target-Sequenz mithilfe der Shotgun-Methode sequenziert, sodass viele kleine DNA-Fragmente (reads) entstehen. Diese sind vollkommen ungeordnet und in keiner Weise miteinander in Bezug gesetzt. Durch das Assembly wird die eigentliche Sequenz aus den erhaltenen reads rekonstruiert und zusammengesetzt. Da NGS heutzutage vollem bei größeren Sequenzierungen hauptsächlich angewendet werden, ist immer eine Assemblierung des reads notwendig.&lt;br /&gt;
&lt;br /&gt;
== Lander-Waterman-Modell ==&lt;br /&gt;
* stellt die statistische Wahrscheinlichkeit für das Auftreten von gaps dar&lt;br /&gt;
* dient somit der Errechnung nicht abgedeckter Basenpaare bei einer Sequenzierung&lt;br /&gt;
&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
P&amp;lt;sub&amp;gt;[nicht abgedecktes Bp]&amp;lt;/sub&amp;gt; = e&amp;lt;sup&amp;gt;&amp;lt;big&amp;gt;-c&amp;lt;/big&amp;gt;&amp;lt;/sup&amp;gt;&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
* P gibt die Anzahl an Basenpaaren an nach denen statistisch ein gap erwartet wird &lt;br /&gt;
* dabei ist C die Coverage, also die Anzahl an reads an einer beliebigen Stelle der Sequenz, die diese Stelle abdecken &lt;br /&gt;
* rechnet man mit der gegeben Formel für P, erhält man erstmal die Wahrscheinlichkeit für das Auftreten eines gaps, bei einer bestimmten Coverage&lt;br /&gt;
* um die tatsächliche Anzahl an bp zu bekommen nach der statistisch ein gap auftritt, ist es notwenndig&lt;br /&gt;
&amp;lt;math&amp;gt;  \frac{1}{P} &amp;lt;/math&amp;gt; zu teilen &lt;br /&gt;
&lt;br /&gt;
G: Länge der Genomsequenz &amp;lt;/br&amp;gt;&lt;br /&gt;
N: Anzahl der reads &amp;lt;/br&amp;gt;&lt;br /&gt;
L: durchschnittliche Länge der reads &amp;lt;/br&amp;gt;&lt;br /&gt;
C: Coverage (Abdeckung) &amp;lt;/br&amp;gt;&lt;br /&gt;
&amp;lt;/br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt; C= \frac{N*L}{G} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Beispiele:&amp;lt;/br&amp;gt;&lt;br /&gt;
C=10 →  1 Gap in 22000 Bp  &lt;br /&gt;
&lt;br /&gt;
C=22 →  1 Gap in 3,6*10&amp;lt;sup&amp;gt;9&amp;lt;/sup&amp;gt; Bp     &lt;br /&gt;
&lt;br /&gt;
C=30 → So tief, dass quasi alles überdeckt wird&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3_Alignments&amp;diff=926</id>
		<title>3 Alignments</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3_Alignments&amp;diff=926"/>
		<updated>2021-09-26T12:57:56Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* Sequenzalignment */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
= Sequenzalignment =&lt;br /&gt;
Das optimale „Aneinander ausrichten“ von Sequenzen, sodass z.B. reads aus einer Sequenzierung an ein Referenzgenom ausgerichtet werden können. &amp;lt;br&amp;gt;&lt;br /&gt;
Es gibt enorm viele Möglichkeiten eine Sequenz an eine andere zu alignen. Deshalb benötigt man spezielle Algorithmen, die die besten Möglichkeiten finden. Um zu bestimmen welches Alignment das beste ist, wird ein Bewertungsschema, der sogenannte alignment score, angewandt. So kann die Übereinstimmung zweier Sequenzen miteinander quantitativ (mit Zahlen) verglichen werden. &amp;lt;br&amp;gt;&lt;br /&gt;
Es werden nicht alle möglichen Alignments ausprobiert und dann deren Scores verglichen, um herauszufinden welches Alignment das beste ist. Mit dieser &amp;quot;brute force&amp;quot; Methode ergeben sich bei kurzen Sequenzen von 100 Basen schon 10&amp;lt;sup&amp;gt;&amp;lt;big&amp;gt;75&amp;lt;/big&amp;gt;&amp;lt;/sup&amp;gt; Alignmentmögichkeiten. Stattdessen werden Sequenzen mit Hilfe des &amp;quot;Dynamic Programming&amp;quot; alignt. Es folgt dem Prinzip von &amp;quot;divide and conquer&amp;quot;, also die Zerlegung des Problems in viele Unterprobleme, die nacheinander gelöst werden. &lt;br /&gt;
Zudem ermöglicht das Sequenzalignment die Erkennung ähnlicher Domänen. Da oft sogar homologe Sequenzen, die von einer gemeinsamen Sequenz abstammen, durch indels, die im Laufe der Evolution aufgetreten sind, unterschiedliche Längen besitzen, ist es notwendig gaps Einzufügen um die Ähnlichkeit der beiden Sequenzen sichtbar zu machen (s. Smith-Waterman). &lt;br /&gt;
Anwenndungen finden Alignments im Sequenzvergeleich, z.B. bei phylogenetischen Untersuchungen. &lt;br /&gt;
&lt;br /&gt;
Man unterscheidet zwei verschiedenen Arten beim Sequenzalignment: &lt;br /&gt;
&lt;br /&gt;
== Globales Alignment ==&lt;br /&gt;
* Alignment zwischen zwei Sequenzen, die ähnlich lang sind und bei denen starke Sequenzhomologien erwartet werden &lt;br /&gt;
* Vergleich von Gesamtsequenzen &lt;br /&gt;
* alle Symbole werden berücksichtigt&lt;br /&gt;
* zur Berechnung des optimalen Alignment Scores wird häufig der Needle-Wunsch Algorithmus benutzt &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel''':&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
{| style=&amp;quot;text-align: center&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
| H|| A|| U|| S|| &amp;amp;nbsp;|| K|| L|| A|| U|| S|| &lt;br /&gt;
|-&lt;br /&gt;
| colspan=&amp;quot;10&amp;quot; | ↓&lt;br /&gt;
|-&lt;br /&gt;
| H|| -|| A|| U|| S|| &amp;amp;nbsp;|| -|| H|| A|| U|| S&lt;br /&gt;
|-&lt;br /&gt;
| K|| L || A|| U|| S|| &amp;amp;nbsp;|| K|| L|| A|| U|| S  &lt;br /&gt;
|- &lt;br /&gt;
| colspan=&amp;quot;5&amp;quot;| Score 8|| &amp;amp;nbsp;|| colspan=&amp;quot;5&amp;quot;| Score 8 &lt;br /&gt;
|} &amp;lt;/big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Bewertungsschema:&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;(a,b)&amp;lt;/sub&amp;gt;={3 a=b match ;0 a≠b mismatch&amp;lt;br&amp;gt;&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|gaps: || S&amp;lt;sub&amp;gt;(a,-)&amp;lt;/sub&amp;gt;=-1 Deletion&lt;br /&gt;
|-&lt;br /&gt;
| &amp;amp;nbsp; || S&amp;lt;sub&amp;gt;(-,b)&amp;lt;/sub&amp;gt;=-1 Insertion&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== Lokales Alignment ==&lt;br /&gt;
* Alignment von Teilsequenzen&lt;br /&gt;
* Vergleich zweier sehr unterschiedlicher Sequenzen, die aber gleiche Motive besitzen&lt;br /&gt;
* z.B. die Suche einer Gensequenz im Genom&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Beispiel:&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|A||T||G||C||A||T||T||A||C&lt;br /&gt;
|-&lt;br /&gt;
|&amp;amp;nbsp;||&amp;amp;nbsp;||&amp;amp;nbsp;||C||T||T||T||A||&amp;amp;nbsp;&lt;br /&gt;
|}&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Smith-Waterman Algorithmus==&lt;br /&gt;
Dynamic programming: &amp;quot;divide and conquer&amp;quot;, Aufteilen des Problems in Subprobleme&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
M&amp;lt;sub&amp;gt;0,0&amp;lt;/sub&amp;gt;=0&amp;lt;br&amp;gt;&lt;br /&gt;
M&amp;lt;sub&amp;gt;0,j&amp;lt;/sub&amp;gt;=0&amp;lt;br&amp;gt;&lt;br /&gt;
M&amp;lt;sub&amp;gt;k,0&amp;lt;/sub&amp;gt;=0&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Smith Waterman Algorithmus.jpg|400px|frameless]]&lt;br /&gt;
&lt;br /&gt;
Das Alignment beginnt bei dem höchsten erzielten Score in der Matrix&lt;br /&gt;
&lt;br /&gt;
Score: Match: +3 | Mismatch: 0 | Gap: -1&lt;br /&gt;
[[File:Smith Waterman.jpg|600px|thumb|center]]&lt;br /&gt;
&lt;br /&gt;
== FASTA-Format ==&lt;br /&gt;
* FSTA ist ein Programm zur Suche von Sequenzen in Datenbanken also eine Alignment Software &lt;br /&gt;
* das FASTA-Format ist ein allgemienes  Format zur Speicherung von Sequenzdaten (Protein und DNA) in Textformat &lt;br /&gt;
* das Format folg einem festen Aufbau: &lt;br /&gt;
# Zeile: Sequenz ID, Zeile startet mit &amp;quot;&amp;gt;&amp;quot; &lt;br /&gt;
# Zeile: (optional) Kommentare &lt;br /&gt;
# Zeile: die Sequenz &lt;br /&gt;
* besteht aus zwei bis drei Zeilen pro Sequenz &lt;br /&gt;
* entstammt der FASTA Software, wird heutzutage aber als universelles Format in der Bioinformatik genutzt&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2_Transkriptom_RNA_Seq_1&amp;diff=925</id>
		<title>2 Transkriptom RNA Seq 1</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2_Transkriptom_RNA_Seq_1&amp;diff=925"/>
		<updated>2021-09-26T11:04:55Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* Ablauf */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
== Biologische Fragestellung ==&lt;br /&gt;
Das NAT8L Gen scheint im Metabolismus von Krebszellen eine Rolle zu spielen. Unser Projekt befasst sich mit Lungenkrebs. Daraus folgt die Frage: Ist NAT8L in Lungenkrebszellen erhöht exprimiert ? &amp;lt;br&amp;gt;&lt;br /&gt;
Die Frage impliziert weitere Überlegungen z.B. ob NAT8L essentiell für das Wachstum von Krebszellen ist und ob eine Inhibierung der NAT8L Expression die Tumorbildung hemmen würde. &lt;br /&gt;
&lt;br /&gt;
Um die Frage zu beantworten sind folgende drei Schritte notwendig: &amp;lt;br&amp;gt;&lt;br /&gt;
Schritt 1: &lt;br /&gt;
* Abfragen von Datenbanken (vielleicht wurden bereits ähnliche Experimente durchgeführt) &amp;lt;br&amp;gt;&lt;br /&gt;
Schritt 2: &lt;br /&gt;
* aus Datenbanken haben wir herausgefunden, dass NAT8L in Lungenkrebszellen erhöht expliziert wird &amp;lt;br&amp;gt;&lt;br /&gt;
Schritt 3: &lt;br /&gt;
* in einem Experiment soll versucht werden die Genexpression durch RNAi (RNA interference) zu silencen&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
[[File:Experiment_Skizze.jpg|400px|center|thumb]]&lt;br /&gt;
* aus zwei Tumorzellkulturen wird die mRNA extrahiert&lt;br /&gt;
* mit Hilfe der reversen Transkriptase wird cDNA transkribiert&lt;br /&gt;
* cDNA wird sequenziert&lt;br /&gt;
* Sequenzunterschiede können analysiert werden &amp;lt;br&amp;gt;&lt;br /&gt;
Dem Experiment liegt die Transkriptomanalyse zugrunde, welche eine quantitative und qualitative Bestimmung aller Transkriptionsaktivitäten ermöglicht. D.h. die Erfassung aller mRNA-Moleküle, wodurch auf die Aktivität bestimmter Gene unter bestimmten Bedingungen zurückschließen lässt. Eine Trannskriptomanalyse (also die Erfassung der Gesamtheit aller in einer Zelle unter einer bestimmte Bedingung erzeugten mRNA Moleküle) lässt sich auf verschiedene Weisen durchführen. Eine Möglichkeit ist ein DNA-Microarray (s. unten). Eine andere Möglichkeit ist die RNA-Sequenzierung. Zum Ablauf RNA-Sequenzierung vergleiche [[5_Transkriptom RNA Seq 2]]. Für beide Analysemethoden ist jedoch die gleiche sample preparation notwendig. &lt;br /&gt;
# mRNA Extraktion aus dem Organismus &lt;br /&gt;
# mRNA wird durch Reverse Transkriptase zu cDNA umgeschrieben &lt;br /&gt;
→ dann folgt die Expressionsanalyse durch genannte Methoden&lt;br /&gt;
&lt;br /&gt;
== Sequenzierung ==&lt;br /&gt;
Für die quantitativen und qualitativen Bestimmungen von Sequenzen bei der Transkriptomanalyse durch die RNA-Sequenzierung müssen, wie der Name schon verrät, die cDNA-Sequenzen sequenziert werden. Hierfür werden die NGS Methoden wie Illumina verwendet. &lt;br /&gt;
&lt;br /&gt;
=== '''N'''ext '''G'''eneration '''S'''equencing (NGS) ===&lt;br /&gt;
==== Illumina Sequencing (2nd Generation Sequencing) ====&lt;br /&gt;
&lt;br /&gt;
[[File:Cluster Generation.png|center|thumb|600px|1. Nach der Fragmentierung und Legierung der Adapter-Molekülen, heften sich die Fragmente an komplementäre Adaptersequenzen in der &amp;quot;flow cell&amp;quot;. 2. Die DNA biegt sich um den zweiten Adapter zu hybridisieren. 3-4. Die Polymerase synthetisiert den komplementären Strang. 5. Die Stränge denaturieren und bilden neue Brücken. Das Resultat sind Cluster der DNA-Stränge.]]&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Ergebnis der Illumina Sequenzierung:&lt;br /&gt;
* Länge der reads 50-600bp&lt;br /&gt;
* Fehlerrate ca. 0,1%&lt;br /&gt;
* humanes Genom kann 30x am Tag sequenziert werden&lt;br /&gt;
* Daten werden in FASTQ Format geliefert&lt;br /&gt;
&lt;br /&gt;
== FASTQ ==&lt;br /&gt;
Die NGS-Sequenzierergebnisse werden in diesem textbasierten-Format geliefert, dass zur Speicherung von DNA/RNA-Sequenzen dient.&lt;br /&gt;
Eine FASTQ-Datei ist folgendermaßen aufgebaut: &amp;lt;/br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 @ Identifier  # Sequenz identifier&lt;br /&gt;
 GATCTT        # Sequenz&lt;br /&gt;
 +             # optionale Beschreibung&lt;br /&gt;
 !'CC'*+*!?    # Qualität jedes Nukleotids (Zahlenwert repräsentiert durch [https://de.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange#ASCII-Tabelle ASCII Tabelle])&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Problem ===&lt;br /&gt;
Viele kurze reads, die in einen Zusammenhang gebracht werden müssen! Um Lücken in der Sequenz zu vermeiden, muss die Sequenziertiefe angepasst werden.&lt;br /&gt;
&lt;br /&gt;
== Microarrays ==&lt;br /&gt;
In Zuge dieser Vorlesung wird unter Microarrays die DNA-Chip Microarray-Methode verstanden. Mit dieser molekularbiologischen Methode lässt sich der Grad der Genexpression in einem Organismus von einer großen Anzahl an Genen gleichzeitig messen. Es wird also gemessen, welche Gene unter welchen Bedingungen wie stark aktiv sind. Stellt Damit eine alternative zur RNA-Seq. dar, bei der die Auswertung mit Hilfe von NGS erfolgt. &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Ablauf ===&lt;br /&gt;
Auf einer Oberfläche z.B. Glas befinden sich in einer bestimmten Anordnung immobilisierte DNA-Fragmente, so dass die Sequenz der DNA-Fragmente an jeder Position bekannt ist. Diese kurzen Oligonucleotide sind Sequenzabschnitte bekannter Gene des zu untersuchenden Organismus und deshalb komplementär zu cDNA-Sequenzen, dessen qualitative und quantitative Expression überprüft werden soll. Wobei sich nicht nur um ein Oliginukleotid sondern um eine große Anzahl der selben Oligonucleotide auf einen spot handelt. Nach der sample preparation erhält man cDNA. Die einzelsträngige cDNA ist floureszens markiert. Die Markierung kann z.B. durch die Verwendung von bereits floureszenzmarkierten dNTPs während der cDNA-Synthese erfolgen. Die cDNA der Probe wird auf den Chip aufgetragen und hybridisiert mit den komplementären Sequenzen. Nach der Fixierung werden die ungebundenen cDNA-Stränge heruntergewaschen. Überall dort wo dann Floureszenz zu messen ist, hat die cDNA an die komplementäre Oligonucleotid gebunden. Weil bekannt ist an welcher Stelle, welches Gensequenzoligonukleotid immobilisiert ist, kann so darauf geschlossen werden, welche Gene im untersuchten Organsimus exprimiert wurden. Die Intensität der Floureszenz korreliert mit der Anzahl an gebundenen cDNA Strängen pro Spot, wass wiederum mit dem Expressionslevel des Gens korreliert. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Hauptsächlich werden sie genutzt um mehrer Proben gleichzeitig zu Vergleichen. Wobei es sich um den vergleich der Genexpressionsmuster unter versch. Bedingungen handelt. &lt;br /&gt;
Man unterscheidet dabei zwei Herangehensweisen: &amp;lt;br&amp;gt;&lt;br /&gt;
One-color technique: &amp;lt;br&amp;gt;&lt;br /&gt;
Die cDNA von zwei verscheiden Proben werden mit unterschiedlichen Farben markiert. Die Proben werden jeweils auf ein Mikroarray gegeben und hybridisieren dort. Die Auswertung erfolgt indem die Bilder der Microarrays übereinander gelegt werden. Dort wo nur cDNA einer Probe gebunden hat, ist die entsprechende Farbe der Probe zu beobachten, dort wo beide gebunden haben, ist eine Farbe zu beobachten, die sich aus der Mischung beider einzelnen Probenfarben ergibt. &amp;lt;br&amp;gt;&lt;br /&gt;
Two-color technique: &amp;lt;br&amp;gt;&lt;br /&gt;
Die cDNA von zwei verschiedenen Proben werden mit unterschiedlichen Farben markiert. Die zwei Proben werden dann zusammengemsicht und auf einen DNA Chip gegeben und hybridisieren dort kompetitiv. Dort wo nur cDNA einer Probe gebunden hat, ist die entsprechende Farbe der Probe zu beobachten, dort wo beide gebunden haben, ist eine Farbe zu beobachten, die sich aus der Mischung beider einzelnen Probenfarben ergibt. &lt;br /&gt;
&lt;br /&gt;
[[File:Cdnaarray.jpg|thumb|center|Ausschnitt aus einem cDNA-Microarraychip]]&lt;br /&gt;
==== Nachteile ====&lt;br /&gt;
Die Microarray-Technologie tritt heutzutage etwas in den Hintergrund, da die Methode einigen Einschränkungen unterliegt. Zum einen löst das Microarray die Sequenz nicht auf die Einzelbase auf, weshalb Mutanten und Splicevarianten oftmals nicht bestimmt werden können. Dies liegt daran, dass auch Sequenzen hybridisieren, die nicht 100% übereinstimmen. Außerdem beruht die Methode auf optischer Messung, was bedeutet, dass ein gewisses Maß an Hintergrundrauschen unvermeidbar ist und eine Messuntergrenze besteht. Somit kann es vorkommen, dass geringe Mengen an bestimmten Sequenzen nicht nachgewiesen werden können. Diese Methode besitzt zudem eine Messobergrenze, denn wenn alle Sonden in einem Spot hybridisiert haben, kann weitere komplementäre cDNA nicht binden und verfällt wenn sie herunter gewaschen wird. Zudem können nur Proben von  Organismen verwendet werden, bei denen die Sequenz bereits bekannt ist.&lt;br /&gt;
&lt;br /&gt;
== Assembly ==&lt;br /&gt;
Assembly ist ein Bioinformatisches Verfahren, bei dem überlappende reads zu Contiqs und anschließend zu Scaffolds zusammengesetzt werden. Wenn das Genom bereits bekannt ist können die Scaffolds an ein Referenzgenom aligned werden, wobei man diese Art der Assemblierung als Alignment oder Assemblierung mit Hilfe eines Referenzgenoms bezeichnet. Liegt keine Referenz vor, bezeichnet man sie als de novo Assemblierung. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Assembly.jpg|600px|center|thumb]]&lt;br /&gt;
&lt;br /&gt;
Contiq: Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken.&lt;br /&gt;
&lt;br /&gt;
Scaffold: Bestehend aus Contiqs und Lücken (auch Supercontiqs genannt); definieren die Reihenfolge, Orientierung und Größe der Lücken zwischen den Contiqs.&lt;br /&gt;
&lt;br /&gt;
Beim NGS wird eine gewünschte Target-Sequenz mithilfe der Shotgun-Methode sequenziert, sodass viele kleine DNA-Fragmente (reads) entstehen. Diese sind vollkommen ungeordnet und in keiner Weise miteinander in Bezug gesetzt. Durch das Assembly wird die eigentliche Sequenz aus den erhaltenen reads rekonstruiert und zusammengesetzt. Da NGS heutzutage vollem bei größeren Sequenzierungen hauptsächlich angewendet werden, ist immer eine Assemblierung des reads notwendig.&lt;br /&gt;
&lt;br /&gt;
== Lander-Waterman-Modell ==&lt;br /&gt;
* stellt die statistische Wahrscheinlichkeit für das Auftreten von gaps dar&lt;br /&gt;
* dient somit der Errechnung nicht abgedeckter Basenpaare bei einer Sequenzierung&lt;br /&gt;
&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
P&amp;lt;sub&amp;gt;[nicht abgedecktes Bp]&amp;lt;/sub&amp;gt; = e&amp;lt;sup&amp;gt;&amp;lt;big&amp;gt;-c&amp;lt;/big&amp;gt;&amp;lt;/sup&amp;gt;&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
* P gibt die Anzahl an Basenpaaren an nach denen statistisch ein gap erwartet wird &lt;br /&gt;
* dabei ist C die Coverage, also die Anzahl an reads an einer beliebigen Stelle der Sequenz, die diese Stelle abdecken &lt;br /&gt;
&amp;lt;/br&amp;gt;&lt;br /&gt;
* rechnet man mit der gegeben Formel für P, erhält man erstmal die Wahrscheinlichkeit für das Auftreten eines gaps, bei einer bestimmten Coverage&lt;br /&gt;
* um die tatsächliche Anzahl an bp zu bekommen nach der statistisch ein gap auftritt, ist es notwenndig&lt;br /&gt;
&amp;lt;math&amp;gt;  \frac{1}{P} &amp;lt;/math&amp;gt; zu teilen &lt;br /&gt;
&lt;br /&gt;
G: Länge der Genomsequenz &amp;lt;/br&amp;gt;&lt;br /&gt;
N: Anzahl der reads &amp;lt;/br&amp;gt;&lt;br /&gt;
L: durchschnittliche Länge der reads &amp;lt;/br&amp;gt;&lt;br /&gt;
C: Coverage (Abdeckung) &amp;lt;/br&amp;gt;&lt;br /&gt;
&amp;lt;/br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt; C= \frac{N*L}{G} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Beispiele:&amp;lt;/br&amp;gt;&lt;br /&gt;
C=10 →  1 Gap in 22000 Bp  &lt;br /&gt;
&lt;br /&gt;
C=22 →  1 Gap in 3,6*10&amp;lt;sup&amp;gt;9&amp;lt;/sup&amp;gt; Bp     &lt;br /&gt;
&lt;br /&gt;
C=30 → So tief, dass quasi alles überdeckt wird&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2_Transkriptom_RNA_Seq_1&amp;diff=924</id>
		<title>2 Transkriptom RNA Seq 1</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2_Transkriptom_RNA_Seq_1&amp;diff=924"/>
		<updated>2021-09-26T10:03:54Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* Biologische Fragestellung */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
== Biologische Fragestellung ==&lt;br /&gt;
Das NAT8L Gen scheint im Metabolismus von Krebszellen eine Rolle zu spielen. Unser Projekt befasst sich mit Lungenkrebs. Daraus folgt die Frage: Ist NAT8L in Lungenkrebszellen erhöht exprimiert ? &amp;lt;br&amp;gt;&lt;br /&gt;
Die Frage impliziert weitere Überlegungen z.B. ob NAT8L essentiell für das Wachstum von Krebszellen ist und ob eine Inhibierung der NAT8L Expression die Tumorbildung hemmen würde. &lt;br /&gt;
&lt;br /&gt;
Um die Frage zu beantworten sind folgende drei Schritte notwendig: &amp;lt;br&amp;gt;&lt;br /&gt;
Schritt 1: &lt;br /&gt;
* Abfragen von Datenbanken (vielleicht wurden bereits ähnliche Experimente durchgeführt) &amp;lt;br&amp;gt;&lt;br /&gt;
Schritt 2: &lt;br /&gt;
* aus Datenbanken haben wir herausgefunden, dass NAT8L in Lungenkrebszellen erhöht expliziert wird &amp;lt;br&amp;gt;&lt;br /&gt;
Schritt 3: &lt;br /&gt;
* in einem Experiment soll versucht werden die Genexpression durch RNAi (RNA interference) zu silencen&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
[[File:Experiment_Skizze.jpg|400px|center|thumb]]&lt;br /&gt;
* aus zwei Tumorzellkulturen wird die mRNA extrahiert&lt;br /&gt;
* mit Hilfe der reversen Transkriptase wird cDNA transkribiert&lt;br /&gt;
* cDNA wird sequenziert&lt;br /&gt;
* Sequenzunterschiede können analysiert werden &amp;lt;br&amp;gt;&lt;br /&gt;
Dem Experiment liegt die Transkriptomanalyse zugrunde, welche eine quantitative und qualitative Bestimmung aller Transkriptionsaktivitäten ermöglicht. D.h. die Erfassung aller mRNA-Moleküle, wodurch auf die Aktivität bestimmter Gene unter bestimmten Bedingungen zurückschließen lässt. Eine Trannskriptomanalyse (also die Erfassung der Gesamtheit aller in einer Zelle unter einer bestimmte Bedingung erzeugten mRNA Moleküle) lässt sich auf verschiedene Weisen durchführen. Eine Möglichkeit ist ein DNA-Microarray (s. unten). Eine andere Möglichkeit ist die RNA-Sequenzierung. Zum Ablauf RNA-Sequenzierung vergleiche [[5_Transkriptom RNA Seq 2]]. Für beide Analysemethoden ist jedoch die gleiche sample preparation notwendig. &lt;br /&gt;
# mRNA Extraktion aus dem Organismus &lt;br /&gt;
# mRNA wird durch Reverse Transkriptase zu cDNA umgeschrieben &lt;br /&gt;
→ dann folgt die Expressionsanalyse durch genannte Methoden&lt;br /&gt;
&lt;br /&gt;
== Sequenzierung ==&lt;br /&gt;
Für die quantitativen und qualitativen Bestimmungen von Sequenzen bei der Transkriptomanalyse durch die RNA-Sequenzierung müssen, wie der Name schon verrät, die cDNA-Sequenzen sequenziert werden. Hierfür werden die NGS Methoden wie Illumina verwendet. &lt;br /&gt;
&lt;br /&gt;
=== '''N'''ext '''G'''eneration '''S'''equencing (NGS) ===&lt;br /&gt;
==== Illumina Sequencing (2nd Generation Sequencing) ====&lt;br /&gt;
&lt;br /&gt;
[[File:Cluster Generation.png|center|thumb|600px|1. Nach der Fragmentierung und Legierung der Adapter-Molekülen, heften sich die Fragmente an komplementäre Adaptersequenzen in der &amp;quot;flow cell&amp;quot;. 2. Die DNA biegt sich um den zweiten Adapter zu hybridisieren. 3-4. Die Polymerase synthetisiert den komplementären Strang. 5. Die Stränge denaturieren und bilden neue Brücken. Das Resultat sind Cluster der DNA-Stränge.]]&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Ergebnis der Illumina Sequenzierung:&lt;br /&gt;
* Länge der reads 50-600bp&lt;br /&gt;
* Fehlerrate ca. 0,1%&lt;br /&gt;
* humanes Genom kann 30x am Tag sequenziert werden&lt;br /&gt;
* Daten werden in FASTQ Format geliefert&lt;br /&gt;
&lt;br /&gt;
== FASTQ ==&lt;br /&gt;
Die NGS-Sequenzierergebnisse werden in diesem textbasierten-Format geliefert, dass zur Speicherung von DNA/RNA-Sequenzen dient.&lt;br /&gt;
Eine FASTQ-Datei ist folgendermaßen aufgebaut: &amp;lt;/br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 @ Identifier  # Sequenz identifier&lt;br /&gt;
 GATCTT        # Sequenz&lt;br /&gt;
 +             # optionale Beschreibung&lt;br /&gt;
 !'CC'*+*!?    # Qualität jedes Nukleotids (Zahlenwert repräsentiert durch [https://de.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange#ASCII-Tabelle ASCII Tabelle])&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Problem ===&lt;br /&gt;
Viele kurze reads, die in einen Zusammenhang gebracht werden müssen! Um Lücken in der Sequenz zu vermeiden, muss die Sequenziertiefe angepasst werden.&lt;br /&gt;
&lt;br /&gt;
== Microarrays ==&lt;br /&gt;
In Zuge dieser Vorlesung wird unter Microarrays die DNA-Chip Microarray-Methode verstanden. Mit dieser molekularbiologischen Methode lässt sich der Grad der Genexpression in einem Organismus von einer großen Anzahl an Genen gleichzeitig messen. Es wird also gemessen, welche Gene unter welchen Bedingungen wie stark aktiv sind. Stellt Damit eine alternative zur RNA-Seq. dar, bei der die Auswertung mit Hilfe von NGS erfolgt. &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Ablauf ===&lt;br /&gt;
Auf einer Oberfläche z.B. Glas befinden sich in einer bestimmten Anordnung immobilisierte DNA-Fragmente, so dass die Sequenz der DNA-Fragmente an jeder Position bekannt ist. Diese kurzen Oligonucleotide sind Sequenzabschnitte bekannter Gene des zu untersuchenden Organismus und deshalb komplementär zu cDNA-Sequenzen, dessen qualitative und quantitative Expression überprüft werden soll. Wobei sich nicht nur um ein oliginukleotid sondern um eine große Anzahl der selben oligonucleotide auf einen spot handelt. Nach der sample preparation erhält man cDNA. Die einzelsträngige cDNA ist floureszens markiert. Die Markierung kann z.B. durch die Verwendung von bereits floureszenzmarkierten dNTPs während der cDNA-Synthese erfolgen. Die cDNA der Probe wird auf den Chip aufgetragen und hybridisiert mit den komplementären Sequenzen. Nach der Fixierung werden die ungebundenen cDNA-Stränge heruntergewaschen. Überall dort wo dann Floureszenz zu messen ist, hat die cDNA an die komplementäre Oligonucleotid gebunden. Weil bekannt ist an welcher Stelle, welches Gensequenzoligonukleotid immobilisiert ist, kann so darauf geschlossen werden, welche Gene im untersuchten Organsimus exprimiert wurden. Die Intensität der Floureszenz korreliert mit der Anzahl an gebundenen cDNA Strängen pro Spot, wass wiederum mit dem Expressionslevel des Gens korreliert. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Hauptsächlich werden sie genutzt um mehrer Proben gleichzeitig zu Vergleichen. Wobei es sich um den vergleich der Genexpressionsmuster unter versch. Bedingungen handelt. &lt;br /&gt;
Man unterscheidet dabei zwei Herangehensweisen: &amp;lt;br&amp;gt;&lt;br /&gt;
One-color technique: &amp;lt;br&amp;gt;&lt;br /&gt;
Die cDNA von zwei verscheiden Proben werden mit unterschiedlichen Farben markiert. Die Proben werden jeweils auf ein Mikroarray gegeben und hybridisieren dort. Die Auswertung erfolgt indem die Bilder der Microarrays übereinander gelegt werden. Dort wo nur cDNA einer Probe gebunden hat, ist die entsprechende Farbe der Probe zu beobachten, dort wo beide gebunden haben, ist eine Farbe zu beobachten, die sich aus der Mischung beider einzelnen Probenfarben ergibt. &amp;lt;br&amp;gt;&lt;br /&gt;
Two-color technique: &amp;lt;br&amp;gt;&lt;br /&gt;
Die cDNA von zwei verschiedenen Proben werden mit unterschiedlichen Farben markiert. Die zwei Proben werden dann zusammengemsicht und auf einen DNA Chip gegeben und hybridisieren dort kompetitiv. Dort wo nur cDNA einer Probe gebunden hat, ist die entsprechende Farbe der Probe zu beobachten, dort wo beide gebunden haben, ist eine Farbe zu beobachten, die sich aus der Mischung beider einzelnen Probenfarben ergibt. &lt;br /&gt;
&lt;br /&gt;
[[File:Cdnaarray.jpg|thumb|center|Ausschnitt aus einem cDNA-Microarraychip]]&lt;br /&gt;
==== Nachteile ====&lt;br /&gt;
Die Microarray-Technologie tritt heutzutage etwas in den Hintergrund, da die Methode einigen Einschränkungen unterliegt. Zum einen löst das Microarray die Sequenz nicht auf die Einzelbase auf, weshalb Mutanten und Splicevarianten oftmals nicht bestimmt werden können. Dies liegt daran, dass auch Sequenzen hybridisieren, die nicht 100% übereinstimmen. Außerdem beruht die Methode auf optischer Messung, was bedeutet, dass ein gewisses Maß an Hintergrundrauschen unvermeidbar ist und eine Messuntergrenze besteht. Somit kann es vorkommen, dass geringe Mengen an bestimmten Sequenzen nicht nachgewiesen werden können. Diese Methode besitzt zudem eine Messobergrenze, denn wenn alle Sonden in einem Spot hybridisiert haben, kann weitere komplementäre cDNA nicht binden und verfällt wenn sie herunter gewaschen wird. Zudem können nur Proben von  Organismen verwendet werden, bei denen die Sequenz bereits bekannt ist.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Assembly ==&lt;br /&gt;
Assembly ist ein Bioinformatisches Verfahren, bei dem überlappende reads zu Contiqs und anschließend zu Scaffolds zusammengesetzt werden. Wenn das Genom bereits bekannt ist können die Scaffolds an ein Referenzgenom aligned werden, wobei man diese Art der Assemblierung als Alignment oder Assemblierung mit Hilfe eines Referenzgenoms bezeichnet. Liegt keine Referenz vor, bezeichnet man sie als de novo Assemblierung. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Assembly.jpg|600px|center|thumb]]&lt;br /&gt;
&lt;br /&gt;
Contiq: Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken.&lt;br /&gt;
&lt;br /&gt;
Scaffold: Bestehend aus Contiqs und Lücken (auch Supercontiqs genannt); definieren die Reihenfolge, Orientierung und Größe der Lücken zwischen den Contiqs.&lt;br /&gt;
&lt;br /&gt;
Beim NGS wird eine gewünschte Target-Sequenz mithilfe der Shotgun-Methode sequenziert, sodass viele kleine DNA-Fragmente (reads) entstehen. Diese sind vollkommen ungeordnet und in keiner Weise miteinander in Bezug gesetzt. Durch das Assembly wird die eigentliche Sequenz aus den erhaltenen reads rekonstruiert und zusammengesetzt. Da NGS heutzutage vollem bei größeren Sequenzierungen hauptsächlich angewendet werden, ist immer eine Assemblierung des reads notwendig.&lt;br /&gt;
&lt;br /&gt;
== Lander-Waterman-Modell ==&lt;br /&gt;
* stellt die statistische Wahrscheinlichkeit für das Auftreten von gaps dar&lt;br /&gt;
* dient somit der Errechnung nicht abgedeckter Basenpaare bei einer Sequenzierung&lt;br /&gt;
&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
P&amp;lt;sub&amp;gt;[nicht abgedecktes Bp]&amp;lt;/sub&amp;gt; = e&amp;lt;sup&amp;gt;&amp;lt;big&amp;gt;-c&amp;lt;/big&amp;gt;&amp;lt;/sup&amp;gt;&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
* P gibt die Anzahl an Basenpaaren an nach denen statistisch ein gap erwartet wird &lt;br /&gt;
* dabei ist C die Coverage, also die Anzahl an reads an einer beliebigen Stelle der Sequenz, die diese Stelle abdecken &lt;br /&gt;
&amp;lt;/br&amp;gt;&lt;br /&gt;
* rechnet man mit der gegeben Formel für P, erhält man erstmal die Wahrscheinlichkeit für das Auftreten eines gaps, bei einer bestimmten Coverage&lt;br /&gt;
* um die tatsächliche Anzahl an bp zu bekommen nach der statistisch ein gap auftritt, ist es notwenndig&lt;br /&gt;
&amp;lt;math&amp;gt;  \frac{1}{P} &amp;lt;/math&amp;gt; zu teilen &lt;br /&gt;
&lt;br /&gt;
G: Länge der Genomsequenz &amp;lt;/br&amp;gt;&lt;br /&gt;
N: Anzahl der reads &amp;lt;/br&amp;gt;&lt;br /&gt;
L: durchschnittliche Länge der reads &amp;lt;/br&amp;gt;&lt;br /&gt;
C: Coverage (Abdeckung) &amp;lt;/br&amp;gt;&lt;br /&gt;
&amp;lt;/br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt; C= \frac{N*L}{G} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Beispiele:&amp;lt;/br&amp;gt;&lt;br /&gt;
C=10 →  1 Gap in 22000 Bp  &lt;br /&gt;
&lt;br /&gt;
C=22 →  1 Gap in 3,6*10&amp;lt;sup&amp;gt;9&amp;lt;/sup&amp;gt; Bp     &lt;br /&gt;
&lt;br /&gt;
C=30 → So tief, dass quasi alles überdeckt wird&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=1_Datenbanken&amp;diff=923</id>
		<title>1 Datenbanken</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=1_Datenbanken&amp;diff=923"/>
		<updated>2021-09-26T09:46:25Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* Genomdatenbanken */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Man unterscheidet zwei Arten von Datenbanken: Primär- und Sekundärdatenbanken. &lt;br /&gt;
&lt;br /&gt;
== Primärdatenbanken ==&lt;br /&gt;
* Primärdatenbanken enthalten experimentell ermittelte Daten &lt;br /&gt;
* man unterscheidet zwischen zwei Konzepten: &lt;br /&gt;
1. Datenbanken in die nach minimaler Konsistenzprüfung Sequenzdaten hochgeladen werden können z.B. EMBL und DDB&lt;br /&gt;
* Vorteil: schnelle öffentliche Verfügbarkeit der Sequenzen &lt;br /&gt;
* Nachteil: fehlende Qualitätsprüfung &lt;br /&gt;
2. curated Datenbanken sind Datenbanken in der jeder Eintrag geprüft wird  z.B. PIR&lt;br /&gt;
* Vorteil: Qualitätssicherung &lt;br /&gt;
* Nachteil: fehlende Aktualität &lt;br /&gt;
&lt;br /&gt;
Man unterscheidet Datenbaken auch abhängig von den gespeicherten biologischen Daten &lt;br /&gt;
&lt;br /&gt;
=== Genomdatenbanken ===&lt;br /&gt;
* Genomsequenzen, mRNAs, tRNAs rRNAs, microRNAs und Sequenzpolymorphismen lassen sich in konsistenter gemeinsamer Ansicht darstellen &lt;br /&gt;
z.B. ENSEMBL-Datenbank, GoldenPath-Browser&lt;br /&gt;
&lt;br /&gt;
=== Motivdatenbanken === &lt;br /&gt;
* ermöglicht die schnelle Identifizierung von konservierten Sequenzen, die für wichtige Proteinstrukturen codieren&lt;br /&gt;
* so lässt sich schnell die Funktion unbekannter Proteine abschätzen und Proteine aufgrund ihrer Funktion in Proteinfamilien einordnen &amp;lt;ref group=&amp;quot;Weblinks&amp;quot;&amp;gt; https://  https://academic.oup.com/nar/article/24/1/197/2359962 (Stand:[20.09.21]) &amp;lt;/ref&amp;gt;  &lt;br /&gt;
z.B. BLOCKS, Prosite, ProDom&lt;br /&gt;
&lt;br /&gt;
=== Molekulare Strukturdatenbank === &lt;br /&gt;
* primäre Datenbanken für Proteinstrukturen (3D Strukturen) z.B. PDB&lt;br /&gt;
&lt;br /&gt;
=== Transkriptomdatenbanken ===&lt;br /&gt;
* Funktionelle Genomik Daten &lt;br /&gt;
z.B. SAGE, ArrayExpress, GEO &lt;br /&gt;
&lt;br /&gt;
=== Refernezdatenbanken === &lt;br /&gt;
*stellen den Bezug zwischen einem Datenbankeintrag in einer Sequenzdatenbank und der wissenschaftlichen Originalliteratur zu dem zugehörigen Gen bzw. Protein her z.B. PubMed &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Sekundärdatenbank ==&lt;br /&gt;
* Sekundärdatenbanken enthalten abgeleitete oder vorhergesagte Daten z.B. Expression Atlas, Uniprot&lt;br /&gt;
&lt;br /&gt;
== Weiterführendes ==&lt;br /&gt;
Überblick über biologische Datenbanken und die open-access Philosophie der Hauptanbieter:&lt;br /&gt;
&lt;br /&gt;
https://www.ebi.ac.uk/training-beta/online/courses/bioinformatics-terrified/the-role-of-public-databases/&lt;br /&gt;
&lt;br /&gt;
== Weblinks ==&lt;br /&gt;
&amp;lt;references group=&amp;quot;Weblinks&amp;quot; /&amp;gt;&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=1_Datenbanken&amp;diff=922</id>
		<title>1 Datenbanken</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=1_Datenbanken&amp;diff=922"/>
		<updated>2021-09-26T09:41:00Z</updated>

		<summary type="html">&lt;p&gt;Skl: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Man unterscheidet zwei Arten von Datenbanken: Primär- und Sekundärdatenbanken. &lt;br /&gt;
&lt;br /&gt;
== Primärdatenbanken ==&lt;br /&gt;
* Primärdatenbanken enthalten experimentell ermittelte Daten &lt;br /&gt;
* man unterscheidet zwischen zwei Konzepten: &lt;br /&gt;
1. Datenbanken in die nach minimaler Konsistenzprüfung Sequenzdaten hochgeladen werden können z.B. EMBL und DDB&lt;br /&gt;
* Vorteil: schnelle öffentliche Verfügbarkeit der Sequenzen &lt;br /&gt;
* Nachteil: fehlende Qualitätsprüfung &lt;br /&gt;
2. curated Datenbanken sind Datenbanken in der jeder Eintrag geprüft wird  z.B. PIR&lt;br /&gt;
* Vorteil: Qualitätssicherung &lt;br /&gt;
* Nachteil: fehlende Aktualität &lt;br /&gt;
&lt;br /&gt;
Man unterscheidet Datenbaken auch abhängig von den gespeicherten biologischen Daten &lt;br /&gt;
&lt;br /&gt;
=== Genomdatenbanken ===&lt;br /&gt;
* Genomsequenzen, mRNAs, tRNAs rRNAs, microRNAs und Sequenzpolymorphismen lassen sich in konsistenter gemeinsamer Ansicht darstellen &lt;br /&gt;
z.B. ENSEMBE-Datenbank, GoldenPath-Browser &lt;br /&gt;
&lt;br /&gt;
=== Motivdatenbanken === &lt;br /&gt;
* ermöglicht die schnelle Identifizierung von konservierten Sequenzen, die für wichtige Proteinstrukturen codieren&lt;br /&gt;
* so lässt sich schnell die Funktion unbekannter Proteine abschätzen und Proteine aufgrund ihrer Funktion in Proteinfamilien einordnen &amp;lt;ref group=&amp;quot;Weblinks&amp;quot;&amp;gt; https://  https://academic.oup.com/nar/article/24/1/197/2359962 (Stand:[20.09.21]) &amp;lt;/ref&amp;gt;  &lt;br /&gt;
z.B. BLOCKS, Prosite, ProDom&lt;br /&gt;
&lt;br /&gt;
=== Molekulare Strukturdatenbank === &lt;br /&gt;
* primäre Datenbanken für Proteinstrukturen (3D Strukturen) z.B. PDB&lt;br /&gt;
&lt;br /&gt;
=== Transkriptomdatenbanken ===&lt;br /&gt;
* Funktionelle Genomik Daten &lt;br /&gt;
z.B. SAGE, ArrayExpress, GEO &lt;br /&gt;
&lt;br /&gt;
=== Refernezdatenbanken === &lt;br /&gt;
*stellen den Bezug zwischen einem Datenbankeintrag in einer Sequenzdatenbank und der wissenschaftlichen Originalliteratur zu dem zugehörigen Gen bzw. Protein her z.B. PubMed &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Sekundärdatenbank ==&lt;br /&gt;
* Sekundärdatenbanken enthalten abgeleitete oder vorhergesagte Daten z.B. Expression Atlas, Uniprot&lt;br /&gt;
&lt;br /&gt;
== Weiterführendes ==&lt;br /&gt;
Überblick über biologische Datenbanken und die open-access Philosophie der Hauptanbieter:&lt;br /&gt;
&lt;br /&gt;
https://www.ebi.ac.uk/training-beta/online/courses/bioinformatics-terrified/the-role-of-public-databases/&lt;br /&gt;
&lt;br /&gt;
== Weblinks ==&lt;br /&gt;
&amp;lt;references group=&amp;quot;Weblinks&amp;quot; /&amp;gt;&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=1_Datenbanken&amp;diff=921</id>
		<title>1 Datenbanken</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=1_Datenbanken&amp;diff=921"/>
		<updated>2021-09-26T09:39:48Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* Primärdatenbanken */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Man unterscheidet zwei Arten von Datenbanken: Primär- und Sekundärdatenbanken. &lt;br /&gt;
&lt;br /&gt;
₴== Primärdatenbanken ==&lt;br /&gt;
* Primärdatenbanken enthalten experimentell ermittelte Daten &lt;br /&gt;
* man unterscheidet zwischen zwei Konzepten: &lt;br /&gt;
1. Datenbanken in die nach minimaler Konsistenzprüfung Sequenzdaten hochgeladen werden können z.B. EMBL und DDB&lt;br /&gt;
* Vorteil: schnelle öffentliche Verfügbarkeit der Sequenzen &lt;br /&gt;
* Nachteil: fehlende Qualitätsprüfung &lt;br /&gt;
2. curated Datenbanken sind Datenbanken in der jeder Eintrag geprüft wird  z.B. PIR&lt;br /&gt;
* Vorteil: Qualitätssicherung &lt;br /&gt;
* Nachteil: fehlende Aktualität &lt;br /&gt;
&lt;br /&gt;
Man unterscheidet Datenbaken auch abhängig von den gespeicherten biologischen Daten &lt;br /&gt;
&lt;br /&gt;
=== Genomdatenbanken ===&lt;br /&gt;
* Genomsequenzen, mRNAs, tRNAs rRNAs, microRNAs und Sequenzpolymorphismen lassen sich in konsistenter gemeinsamer Ansicht darstellen &lt;br /&gt;
z.B. ENSEMBE-Datenbank, GoldenPath-Browser &lt;br /&gt;
&lt;br /&gt;
=== Motivdatenbanken === &lt;br /&gt;
* ermöglicht die schnelle Identifizierung von konservierten Sequenzen, die für wichtige Proteinstrukturen codieren&lt;br /&gt;
* so lässt sich schnell die Funktion unbekannter Proteine abschätzen und Proteine aufgrund ihrer Funktion in Proteinfamilien einordnen &amp;lt;ref group=&amp;quot;Weblinks&amp;quot;&amp;gt; https://  https://academic.oup.com/nar/article/24/1/197/2359962 (Stand:[20.09.21]) &amp;lt;/ref&amp;gt;  &lt;br /&gt;
z.B. BLOCKS, Prosite, ProDom&lt;br /&gt;
&lt;br /&gt;
=== Molekulare Strukturdatenbank === &lt;br /&gt;
* primäre Datenbanken für Proteinstrukturen (3D Strukturen) z.B. PDB&lt;br /&gt;
&lt;br /&gt;
=== Transkriptomdatenbanken ===&lt;br /&gt;
* Funktionelle Genomik Daten &lt;br /&gt;
z.B. SAGE, ArrayExpress, GEO &lt;br /&gt;
&lt;br /&gt;
=== Refernezdatenbanken === &lt;br /&gt;
*stellen den Bezug zwischen einem Datenbankeintrag in einer Sequenzdatenbank und der wissenschaftlichen Originalliteratur zu dem zugehörigen Gen bzw. Protein her z.B. PubMed&lt;br /&gt;
&lt;br /&gt;
== Sekundärdatenbank ==&lt;br /&gt;
* Sekundärdatenbanken enthalten abgeleitete oder vorhergesagte Daten z.B. Expression Atlas, Uniprot&lt;br /&gt;
&lt;br /&gt;
== Weiterführendes ==&lt;br /&gt;
Überblick über biologische Datenbanken und die open-access Philosophie der Hauptanbieter:&lt;br /&gt;
&lt;br /&gt;
https://www.ebi.ac.uk/training-beta/online/courses/bioinformatics-terrified/the-role-of-public-databases/&lt;br /&gt;
&lt;br /&gt;
== Weblinks ==&lt;br /&gt;
&amp;lt;references group=&amp;quot;Weblinks&amp;quot; /&amp;gt;&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3_Alignments&amp;diff=920</id>
		<title>3 Alignments</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3_Alignments&amp;diff=920"/>
		<updated>2021-09-25T14:23:54Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* FASTA-Format */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
= Sequenzalignment =&lt;br /&gt;
Das optimale „Aneinander ausrichten“ von Sequenzen, sodass z.B. reads aus einer Sequenzierung an ein Referenzgenom ausgerichtet werden können. &amp;lt;br&amp;gt;&lt;br /&gt;
Es gibt enorm viele Möglichkeiten eine Sequenz an eine andere zu alignen. Deshalb benötigt man speziell Algorithmen, die die besten Möglichkeiten finden. Um zu bestimmen welches Alignment das beste ist, wird ein Bewertungsschema, der sogenannte Score, angewandt. So kann die Übereinstimmung zweier Sequenzen miteinander quantitativ (mit Zahlen) verglichen werden. &amp;lt;br&amp;gt;&lt;br /&gt;
Es werden nicht alle möglichen Alignements ausprobiert und dann deren Scores verglichen, um herauszufinden welches Alignment das beste ist. Mit dieser &amp;quot;brute force&amp;quot; Methode ergeben sich bei kurzen Sequenzen von 100 Basen schon 10&amp;lt;sup&amp;gt;&amp;lt;big&amp;gt;75&amp;lt;/big&amp;gt;&amp;lt;/sup&amp;gt; Alignmentmögichkeiten. Stattdessen werden Sequenzen mit Hilfe des &amp;quot;Dynamic Programming&amp;quot; alignet. Es folgt dem Prinzip von &amp;quot;divide and conquer&amp;quot;, also die Zerlegung des Problems in viele Unterprobleme, die nacheinander gelöst werden. &lt;br /&gt;
Zudem ermöglicht das Sequenzalignment die Erkennung ähnlicher Domänen. Da oft sogar homologe Sequenzen, die von einer gemeinsamen Sequenz abstammen, durch indels, die im Laufe der Zeit aufgetreten sind, unterschiedliche Längen besitzen, ist es notwendig gaps Einzufügen um die Ähnlichkeit der beiden Sequenzen sichtbar zu machen (s. Smith-Waterman). &lt;br /&gt;
Anwenndungen finden Alignments im Sequenzvergeleich, z.B. bei phylogenetischen Untersuchungen. &lt;br /&gt;
&lt;br /&gt;
Man unterscheidet zwei verschiedenen Arten beim Sequenzalignment: &lt;br /&gt;
&lt;br /&gt;
== Globales Alignment ==&lt;br /&gt;
* Alignment zwischen zwei Sequenzen, die ähnlich lang sind und bei denen starke Sequenzhomologien erwartet werden &lt;br /&gt;
* Vergleich von Gesamtsequenzen &lt;br /&gt;
* alle Symbole werden berücksichtigt&lt;br /&gt;
* zur Berechnung des optimalen Alignment Scores wird häufig der Needle-Wunsch Algorithmus benutzt &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel''':&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
{| style=&amp;quot;text-align: center&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
| H|| A|| U|| S|| &amp;amp;nbsp;|| K|| L|| A|| U|| S|| &lt;br /&gt;
|-&lt;br /&gt;
| colspan=&amp;quot;10&amp;quot; | ↓&lt;br /&gt;
|-&lt;br /&gt;
| H|| -|| A|| U|| S|| &amp;amp;nbsp;|| -|| H|| A|| U|| S&lt;br /&gt;
|-&lt;br /&gt;
| K|| L || A|| U|| S|| &amp;amp;nbsp;|| K|| L|| A|| U|| S  &lt;br /&gt;
|- &lt;br /&gt;
| colspan=&amp;quot;5&amp;quot;| Score 8|| &amp;amp;nbsp;|| colspan=&amp;quot;5&amp;quot;| Score 8 &lt;br /&gt;
|} &amp;lt;/big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Bewertungsschema:&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;(a,b)&amp;lt;/sub&amp;gt;={3 a=b match ;0 a≠b mismatch&amp;lt;br&amp;gt;&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|gaps: || S&amp;lt;sub&amp;gt;(a,-)&amp;lt;/sub&amp;gt;=-1 Deletion&lt;br /&gt;
|-&lt;br /&gt;
| &amp;amp;nbsp; || S&amp;lt;sub&amp;gt;(-,b)&amp;lt;/sub&amp;gt;=-1 Insertion&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== Lokales Alignment ==&lt;br /&gt;
* Alignment von Teilsequenzen&lt;br /&gt;
* Vergleich zweier sehr unterschiedlicher Sequenzen, die aber gleiche Motive besitzen&lt;br /&gt;
* z.B. die Suche einer Gensequenz im Genom&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Beispiel:&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|A||T||G||C||A||T||T||A||C&lt;br /&gt;
|-&lt;br /&gt;
|&amp;amp;nbsp;||&amp;amp;nbsp;||&amp;amp;nbsp;||C||T||T||T||A||&amp;amp;nbsp;&lt;br /&gt;
|}&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Smith-Waterman Algorithmus==&lt;br /&gt;
Dynamic programming: &amp;quot;divide and conquer&amp;quot;, Aufteilen des Problems in Subprobleme&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
M&amp;lt;sub&amp;gt;0,0&amp;lt;/sub&amp;gt;=0&amp;lt;br&amp;gt;&lt;br /&gt;
M&amp;lt;sub&amp;gt;0,j&amp;lt;/sub&amp;gt;=0&amp;lt;br&amp;gt;&lt;br /&gt;
M&amp;lt;sub&amp;gt;k,0&amp;lt;/sub&amp;gt;=0&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Smith Waterman Algorithmus.jpg|400px|frameless]]&lt;br /&gt;
&lt;br /&gt;
Das Alignment beginnt bei dem höchsten erzielten Score in der Matrix&lt;br /&gt;
&lt;br /&gt;
Score: Match: +3 | Mismatch: 0 | Gap: -1&lt;br /&gt;
[[File:Smith Waterman.jpg|600px|thumb|center]]&lt;br /&gt;
&lt;br /&gt;
== FASTA-Format ==&lt;br /&gt;
* FSTA ist ein Programm zur Suche von Sequenzen in Datenbanken also eine Alignment Software &lt;br /&gt;
* das FASTA-Format ist ein allgemienes  Format zur Speicherung von Sequenzdaten (Protein und DNA) in Textformat &lt;br /&gt;
* das Format folg einem festen Aufbau: &lt;br /&gt;
# Zeile: Sequenz ID, Zeile startet mit &amp;quot;&amp;gt;&amp;quot; &lt;br /&gt;
# Zeile: (optional) Kommentare &lt;br /&gt;
# Zeile: die Sequenz &lt;br /&gt;
* besteht aus zwei bis drei Zeilen pro Sequenz &lt;br /&gt;
* entstammt der FASTA Software, wird heutzutage aber als universelles Format in der Bioinformatik genutzt&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3_Alignments&amp;diff=919</id>
		<title>3 Alignments</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3_Alignments&amp;diff=919"/>
		<updated>2021-09-25T14:23:20Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* FASTA Format */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
= Sequenzalignment =&lt;br /&gt;
Das optimale „Aneinander ausrichten“ von Sequenzen, sodass z.B. reads aus einer Sequenzierung an ein Referenzgenom ausgerichtet werden können. &amp;lt;br&amp;gt;&lt;br /&gt;
Es gibt enorm viele Möglichkeiten eine Sequenz an eine andere zu alignen. Deshalb benötigt man speziell Algorithmen, die die besten Möglichkeiten finden. Um zu bestimmen welches Alignment das beste ist, wird ein Bewertungsschema, der sogenannte Score, angewandt. So kann die Übereinstimmung zweier Sequenzen miteinander quantitativ (mit Zahlen) verglichen werden. &amp;lt;br&amp;gt;&lt;br /&gt;
Es werden nicht alle möglichen Alignements ausprobiert und dann deren Scores verglichen, um herauszufinden welches Alignment das beste ist. Mit dieser &amp;quot;brute force&amp;quot; Methode ergeben sich bei kurzen Sequenzen von 100 Basen schon 10&amp;lt;sup&amp;gt;&amp;lt;big&amp;gt;75&amp;lt;/big&amp;gt;&amp;lt;/sup&amp;gt; Alignmentmögichkeiten. Stattdessen werden Sequenzen mit Hilfe des &amp;quot;Dynamic Programming&amp;quot; alignet. Es folgt dem Prinzip von &amp;quot;divide and conquer&amp;quot;, also die Zerlegung des Problems in viele Unterprobleme, die nacheinander gelöst werden. &lt;br /&gt;
Zudem ermöglicht das Sequenzalignment die Erkennung ähnlicher Domänen. Da oft sogar homologe Sequenzen, die von einer gemeinsamen Sequenz abstammen, durch indels, die im Laufe der Zeit aufgetreten sind, unterschiedliche Längen besitzen, ist es notwendig gaps Einzufügen um die Ähnlichkeit der beiden Sequenzen sichtbar zu machen (s. Smith-Waterman). &lt;br /&gt;
Anwenndungen finden Alignments im Sequenzvergeleich, z.B. bei phylogenetischen Untersuchungen. &lt;br /&gt;
&lt;br /&gt;
Man unterscheidet zwei verschiedenen Arten beim Sequenzalignment: &lt;br /&gt;
&lt;br /&gt;
== Globales Alignment ==&lt;br /&gt;
* Alignment zwischen zwei Sequenzen, die ähnlich lang sind und bei denen starke Sequenzhomologien erwartet werden &lt;br /&gt;
* Vergleich von Gesamtsequenzen &lt;br /&gt;
* alle Symbole werden berücksichtigt&lt;br /&gt;
* zur Berechnung des optimalen Alignment Scores wird häufig der Needle-Wunsch Algorithmus benutzt &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel''':&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
{| style=&amp;quot;text-align: center&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
| H|| A|| U|| S|| &amp;amp;nbsp;|| K|| L|| A|| U|| S|| &lt;br /&gt;
|-&lt;br /&gt;
| colspan=&amp;quot;10&amp;quot; | ↓&lt;br /&gt;
|-&lt;br /&gt;
| H|| -|| A|| U|| S|| &amp;amp;nbsp;|| -|| H|| A|| U|| S&lt;br /&gt;
|-&lt;br /&gt;
| K|| L || A|| U|| S|| &amp;amp;nbsp;|| K|| L|| A|| U|| S  &lt;br /&gt;
|- &lt;br /&gt;
| colspan=&amp;quot;5&amp;quot;| Score 8|| &amp;amp;nbsp;|| colspan=&amp;quot;5&amp;quot;| Score 8 &lt;br /&gt;
|} &amp;lt;/big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Bewertungsschema:&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;(a,b)&amp;lt;/sub&amp;gt;={3 a=b match ;0 a≠b mismatch&amp;lt;br&amp;gt;&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|gaps: || S&amp;lt;sub&amp;gt;(a,-)&amp;lt;/sub&amp;gt;=-1 Deletion&lt;br /&gt;
|-&lt;br /&gt;
| &amp;amp;nbsp; || S&amp;lt;sub&amp;gt;(-,b)&amp;lt;/sub&amp;gt;=-1 Insertion&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== Lokales Alignment ==&lt;br /&gt;
* Alignment von Teilsequenzen&lt;br /&gt;
* Vergleich zweier sehr unterschiedlicher Sequenzen, die aber gleiche Motive besitzen&lt;br /&gt;
* z.B. die Suche einer Gensequenz im Genom&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Beispiel:&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|A||T||G||C||A||T||T||A||C&lt;br /&gt;
|-&lt;br /&gt;
|&amp;amp;nbsp;||&amp;amp;nbsp;||&amp;amp;nbsp;||C||T||T||T||A||&amp;amp;nbsp;&lt;br /&gt;
|}&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Smith-Waterman Algorithmus==&lt;br /&gt;
Dynamic programming: &amp;quot;divide and conquer&amp;quot;, Aufteilen des Problems in Subprobleme&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
M&amp;lt;sub&amp;gt;0,0&amp;lt;/sub&amp;gt;=0&amp;lt;br&amp;gt;&lt;br /&gt;
M&amp;lt;sub&amp;gt;0,j&amp;lt;/sub&amp;gt;=0&amp;lt;br&amp;gt;&lt;br /&gt;
M&amp;lt;sub&amp;gt;k,0&amp;lt;/sub&amp;gt;=0&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Smith Waterman Algorithmus.jpg|400px|frameless]]&lt;br /&gt;
&lt;br /&gt;
Das Alignment beginnt bei dem höchsten erzielten Score in der Matrix&lt;br /&gt;
&lt;br /&gt;
Score: Match: +3 | Mismatch: 0 | Gap: -1&lt;br /&gt;
[[File:Smith Waterman.jpg|600px|thumb|center]]&lt;br /&gt;
&lt;br /&gt;
== FASTA-Format ==&lt;br /&gt;
* FSTA ist ein Programm zur Suche von Sequenzen in Datenbanken also eine Alignment Software &lt;br /&gt;
* das FASTA-Format ist ein allgemienes  Format zur Speicherung von Sequenzdaten (Protein und DNA) in Textformat &lt;br /&gt;
* das Format folg einem festen Aufbau: &lt;br /&gt;
# Zeile: Sequenz ID, Zeile startet mit &amp;quot;&amp;gt;&amp;quot; &lt;br /&gt;
# Zeile: (optional) Kommentare &lt;br /&gt;
--&amp;gt; weitere Zeilen: die Sequenz &lt;br /&gt;
* besteht aus zwei bis drei Zeilen pro Sequenz &lt;br /&gt;
* entstammt der FASTA Software, wird heutzutage aber als universelles Format in der Bioinformatik genutzt&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3_Alignments&amp;diff=918</id>
		<title>3 Alignments</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3_Alignments&amp;diff=918"/>
		<updated>2021-09-25T14:15:44Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* FASTA Format */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
= Sequenzalignment =&lt;br /&gt;
Das optimale „Aneinander ausrichten“ von Sequenzen, sodass z.B. reads aus einer Sequenzierung an ein Referenzgenom ausgerichtet werden können. &amp;lt;br&amp;gt;&lt;br /&gt;
Es gibt enorm viele Möglichkeiten eine Sequenz an eine andere zu alignen. Deshalb benötigt man speziell Algorithmen, die die besten Möglichkeiten finden. Um zu bestimmen welches Alignment das beste ist, wird ein Bewertungsschema, der sogenannte Score, angewandt. So kann die Übereinstimmung zweier Sequenzen miteinander quantitativ (mit Zahlen) verglichen werden. &amp;lt;br&amp;gt;&lt;br /&gt;
Es werden nicht alle möglichen Alignements ausprobiert und dann deren Scores verglichen, um herauszufinden welches Alignment das beste ist. Mit dieser &amp;quot;brute force&amp;quot; Methode ergeben sich bei kurzen Sequenzen von 100 Basen schon 10&amp;lt;sup&amp;gt;&amp;lt;big&amp;gt;75&amp;lt;/big&amp;gt;&amp;lt;/sup&amp;gt; Alignmentmögichkeiten. Stattdessen werden Sequenzen mit Hilfe des &amp;quot;Dynamic Programming&amp;quot; alignet. Es folgt dem Prinzip von &amp;quot;divide and conquer&amp;quot;, also die Zerlegung des Problems in viele Unterprobleme, die nacheinander gelöst werden. &lt;br /&gt;
Zudem ermöglicht das Sequenzalignment die Erkennung ähnlicher Domänen. Da oft sogar homologe Sequenzen, die von einer gemeinsamen Sequenz abstammen, durch indels, die im Laufe der Zeit aufgetreten sind, unterschiedliche Längen besitzen, ist es notwendig gaps Einzufügen um die Ähnlichkeit der beiden Sequenzen sichtbar zu machen (s. Smith-Waterman). &lt;br /&gt;
Anwenndungen finden Alignments im Sequenzvergeleich, z.B. bei phylogenetischen Untersuchungen. &lt;br /&gt;
&lt;br /&gt;
Man unterscheidet zwei verschiedenen Arten beim Sequenzalignment: &lt;br /&gt;
&lt;br /&gt;
== Globales Alignment ==&lt;br /&gt;
* Alignment zwischen zwei Sequenzen, die ähnlich lang sind und bei denen starke Sequenzhomologien erwartet werden &lt;br /&gt;
* Vergleich von Gesamtsequenzen &lt;br /&gt;
* alle Symbole werden berücksichtigt&lt;br /&gt;
* zur Berechnung des optimalen Alignment Scores wird häufig der Needle-Wunsch Algorithmus benutzt &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel''':&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
{| style=&amp;quot;text-align: center&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
| H|| A|| U|| S|| &amp;amp;nbsp;|| K|| L|| A|| U|| S|| &lt;br /&gt;
|-&lt;br /&gt;
| colspan=&amp;quot;10&amp;quot; | ↓&lt;br /&gt;
|-&lt;br /&gt;
| H|| -|| A|| U|| S|| &amp;amp;nbsp;|| -|| H|| A|| U|| S&lt;br /&gt;
|-&lt;br /&gt;
| K|| L || A|| U|| S|| &amp;amp;nbsp;|| K|| L|| A|| U|| S  &lt;br /&gt;
|- &lt;br /&gt;
| colspan=&amp;quot;5&amp;quot;| Score 8|| &amp;amp;nbsp;|| colspan=&amp;quot;5&amp;quot;| Score 8 &lt;br /&gt;
|} &amp;lt;/big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Bewertungsschema:&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;(a,b)&amp;lt;/sub&amp;gt;={3 a=b match ;0 a≠b mismatch&amp;lt;br&amp;gt;&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|gaps: || S&amp;lt;sub&amp;gt;(a,-)&amp;lt;/sub&amp;gt;=-1 Deletion&lt;br /&gt;
|-&lt;br /&gt;
| &amp;amp;nbsp; || S&amp;lt;sub&amp;gt;(-,b)&amp;lt;/sub&amp;gt;=-1 Insertion&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== Lokales Alignment ==&lt;br /&gt;
* Alignment von Teilsequenzen&lt;br /&gt;
* Vergleich zweier sehr unterschiedlicher Sequenzen, die aber gleiche Motive besitzen&lt;br /&gt;
* z.B. die Suche einer Gensequenz im Genom&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Beispiel:&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|A||T||G||C||A||T||T||A||C&lt;br /&gt;
|-&lt;br /&gt;
|&amp;amp;nbsp;||&amp;amp;nbsp;||&amp;amp;nbsp;||C||T||T||T||A||&amp;amp;nbsp;&lt;br /&gt;
|}&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Smith-Waterman Algorithmus==&lt;br /&gt;
Dynamic programming: &amp;quot;divide and conquer&amp;quot;, Aufteilen des Problems in Subprobleme&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
M&amp;lt;sub&amp;gt;0,0&amp;lt;/sub&amp;gt;=0&amp;lt;br&amp;gt;&lt;br /&gt;
M&amp;lt;sub&amp;gt;0,j&amp;lt;/sub&amp;gt;=0&amp;lt;br&amp;gt;&lt;br /&gt;
M&amp;lt;sub&amp;gt;k,0&amp;lt;/sub&amp;gt;=0&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Smith Waterman Algorithmus.jpg|400px|frameless]]&lt;br /&gt;
&lt;br /&gt;
Das Alignment beginnt bei dem höchsten erzielten Score in der Matrix&lt;br /&gt;
&lt;br /&gt;
Score: Match: +3 | Mismatch: 0 | Gap: -1&lt;br /&gt;
[[File:Smith Waterman.jpg|600px|thumb|center]]&lt;br /&gt;
&lt;br /&gt;
== FASTA Format ==&lt;br /&gt;
* FSTA ist ein Programm zur Suche von Sequenzen in Datenbanken also eine Alignment Software &lt;br /&gt;
* das FASTA-Format ist ein allgemienes Format zur Speicherung von Sequenzdaten (Protein und DNA) in Textformat &lt;br /&gt;
* das Format folg einem festen Aufbau: &lt;br /&gt;
# Zeile: Sequenz ID, Zeile startet mit &amp;quot;&amp;gt;&amp;quot; &lt;br /&gt;
--&amp;gt; weitere Zeilen: die Sequenz &lt;br /&gt;
* entstammt der FASTA Software, wird heutzutage aber als universelles Format in der Bioinformatik genutzt&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3_Alignments&amp;diff=917</id>
		<title>3 Alignments</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=3_Alignments&amp;diff=917"/>
		<updated>2021-09-25T14:15:33Z</updated>

		<summary type="html">&lt;p&gt;Skl: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
= Sequenzalignment =&lt;br /&gt;
Das optimale „Aneinander ausrichten“ von Sequenzen, sodass z.B. reads aus einer Sequenzierung an ein Referenzgenom ausgerichtet werden können. &amp;lt;br&amp;gt;&lt;br /&gt;
Es gibt enorm viele Möglichkeiten eine Sequenz an eine andere zu alignen. Deshalb benötigt man speziell Algorithmen, die die besten Möglichkeiten finden. Um zu bestimmen welches Alignment das beste ist, wird ein Bewertungsschema, der sogenannte Score, angewandt. So kann die Übereinstimmung zweier Sequenzen miteinander quantitativ (mit Zahlen) verglichen werden. &amp;lt;br&amp;gt;&lt;br /&gt;
Es werden nicht alle möglichen Alignements ausprobiert und dann deren Scores verglichen, um herauszufinden welches Alignment das beste ist. Mit dieser &amp;quot;brute force&amp;quot; Methode ergeben sich bei kurzen Sequenzen von 100 Basen schon 10&amp;lt;sup&amp;gt;&amp;lt;big&amp;gt;75&amp;lt;/big&amp;gt;&amp;lt;/sup&amp;gt; Alignmentmögichkeiten. Stattdessen werden Sequenzen mit Hilfe des &amp;quot;Dynamic Programming&amp;quot; alignet. Es folgt dem Prinzip von &amp;quot;divide and conquer&amp;quot;, also die Zerlegung des Problems in viele Unterprobleme, die nacheinander gelöst werden. &lt;br /&gt;
Zudem ermöglicht das Sequenzalignment die Erkennung ähnlicher Domänen. Da oft sogar homologe Sequenzen, die von einer gemeinsamen Sequenz abstammen, durch indels, die im Laufe der Zeit aufgetreten sind, unterschiedliche Längen besitzen, ist es notwendig gaps Einzufügen um die Ähnlichkeit der beiden Sequenzen sichtbar zu machen (s. Smith-Waterman). &lt;br /&gt;
Anwenndungen finden Alignments im Sequenzvergeleich, z.B. bei phylogenetischen Untersuchungen. &lt;br /&gt;
&lt;br /&gt;
Man unterscheidet zwei verschiedenen Arten beim Sequenzalignment: &lt;br /&gt;
&lt;br /&gt;
== Globales Alignment ==&lt;br /&gt;
* Alignment zwischen zwei Sequenzen, die ähnlich lang sind und bei denen starke Sequenzhomologien erwartet werden &lt;br /&gt;
* Vergleich von Gesamtsequenzen &lt;br /&gt;
* alle Symbole werden berücksichtigt&lt;br /&gt;
* zur Berechnung des optimalen Alignment Scores wird häufig der Needle-Wunsch Algorithmus benutzt &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
'''Beispiel''':&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
{| style=&amp;quot;text-align: center&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
| H|| A|| U|| S|| &amp;amp;nbsp;|| K|| L|| A|| U|| S|| &lt;br /&gt;
|-&lt;br /&gt;
| colspan=&amp;quot;10&amp;quot; | ↓&lt;br /&gt;
|-&lt;br /&gt;
| H|| -|| A|| U|| S|| &amp;amp;nbsp;|| -|| H|| A|| U|| S&lt;br /&gt;
|-&lt;br /&gt;
| K|| L || A|| U|| S|| &amp;amp;nbsp;|| K|| L|| A|| U|| S  &lt;br /&gt;
|- &lt;br /&gt;
| colspan=&amp;quot;5&amp;quot;| Score 8|| &amp;amp;nbsp;|| colspan=&amp;quot;5&amp;quot;| Score 8 &lt;br /&gt;
|} &amp;lt;/big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Bewertungsschema:&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;(a,b)&amp;lt;/sub&amp;gt;={3 a=b match ;0 a≠b mismatch&amp;lt;br&amp;gt;&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|gaps: || S&amp;lt;sub&amp;gt;(a,-)&amp;lt;/sub&amp;gt;=-1 Deletion&lt;br /&gt;
|-&lt;br /&gt;
| &amp;amp;nbsp; || S&amp;lt;sub&amp;gt;(-,b)&amp;lt;/sub&amp;gt;=-1 Insertion&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== Lokales Alignment ==&lt;br /&gt;
* Alignment von Teilsequenzen&lt;br /&gt;
* Vergleich zweier sehr unterschiedlicher Sequenzen, die aber gleiche Motive besitzen&lt;br /&gt;
* z.B. die Suche einer Gensequenz im Genom&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Beispiel:&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
{|&lt;br /&gt;
|-&lt;br /&gt;
|A||T||G||C||A||T||T||A||C&lt;br /&gt;
|-&lt;br /&gt;
|&amp;amp;nbsp;||&amp;amp;nbsp;||&amp;amp;nbsp;||C||T||T||T||A||&amp;amp;nbsp;&lt;br /&gt;
|}&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Smith-Waterman Algorithmus==&lt;br /&gt;
Dynamic programming: &amp;quot;divide and conquer&amp;quot;, Aufteilen des Problems in Subprobleme&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
M&amp;lt;sub&amp;gt;0,0&amp;lt;/sub&amp;gt;=0&amp;lt;br&amp;gt;&lt;br /&gt;
M&amp;lt;sub&amp;gt;0,j&amp;lt;/sub&amp;gt;=0&amp;lt;br&amp;gt;&lt;br /&gt;
M&amp;lt;sub&amp;gt;k,0&amp;lt;/sub&amp;gt;=0&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Smith Waterman Algorithmus.jpg|400px|frameless]]&lt;br /&gt;
&lt;br /&gt;
Das Alignment beginnt bei dem höchsten erzielten Score in der Matrix&lt;br /&gt;
&lt;br /&gt;
Score: Match: +3 | Mismatch: 0 | Gap: -1&lt;br /&gt;
[[File:Smith Waterman.jpg|600px|thumb|center]]&lt;br /&gt;
&lt;br /&gt;
== FASTA Format ==&lt;br /&gt;
* FSTA ist ein Programm zur Suche von Sequenzen in Datenbanken also eine Alignment Software &lt;br /&gt;
* das FASTA-Format ist ein allgemienes Format zur Speicherung von Sequenzdaten (Protein und DNA) in Textformat &lt;br /&gt;
* das Format folg einem festen Aufbau: &lt;br /&gt;
# Zeile: Sequenz ID, Zeile startet mit &amp;quot;&amp;gt;&amp;quot; &lt;br /&gt;
--&amp;gt; weitere Zeilen: die Sequenz &lt;br /&gt;
* entstammt der FASTA Software, wird heutzutage aber als universelles Format in der Bioinformatik genutzt &lt;br /&gt;
*&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2_Transkriptom_RNA_Seq_1&amp;diff=916</id>
		<title>2 Transkriptom RNA Seq 1</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2_Transkriptom_RNA_Seq_1&amp;diff=916"/>
		<updated>2021-09-25T13:57:08Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* Lander-Waterman-Modell */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
== Biologische Fragestellung ==&lt;br /&gt;
Das NAT8L Gen scheint im Metabolismus von Krebszellen eine Rolle zu spielen. Unser Projekt befasst sich mit Lungenkrebs. Daraus folg folgende Frage: Ist NAT8L in Lungenkrebszellen erhöht exprimiert ? &amp;lt;br&amp;gt;&lt;br /&gt;
Die Frage impliziert weitere Überlegungen z.B. ob NAT8L essentiell für das Wachstum von Krebszellen ist und ob eine Inhibierung der NAT8L Expression die Tumorbildung hemmen würde. &lt;br /&gt;
&lt;br /&gt;
Um die Frage zu beantworten sind folgende drei Schritte notwendig: &amp;lt;br&amp;gt;&lt;br /&gt;
Schritt 1: &lt;br /&gt;
* Abfragen von Datenbanken (vielleicht wurden bereits ähnliche Experimente durchgeführt) &amp;lt;br&amp;gt;&lt;br /&gt;
Schritt 2: &lt;br /&gt;
* aus Datenbanken haben wir herausgefunden, dass NAT8L in Lungenkrebszellen erhöht expliziert wird &amp;lt;br&amp;gt;&lt;br /&gt;
Schritt 3: &lt;br /&gt;
* in einem Experiment soll versucht werden die Genexpression durch RNAi (RNA interference) zu silencen&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
[[File:Experiment_Skizze.jpg|400px|center|thumb]]&lt;br /&gt;
* aus zwei Tumorzellkulturen wird die mRNA extrahiert&lt;br /&gt;
* mit Hilfe der reversen Transkriptase wird cDNA transkribiert&lt;br /&gt;
* cDNA wird sequenziert&lt;br /&gt;
* Sequenzunterschiede können analysiert werden &amp;lt;br&amp;gt;&lt;br /&gt;
Dem Experiment liegt die Transkriptomanalyse zugrunde, welche eine quantitative und qualitative Bestimmung aller Transkriptionsaktivitäten ermöglicht. D.h. die Erfassung aller mRNA-Moleküle, wodurch auf die Aktivität bestimmter Gene unter bestimmten Bedingungen zurückschließen lässt. Eine Trannskriptomanalyse (also die Erfassung der Gesamtheit aller in einer Zelle unter einer bestimmte Bedingung erzeugten mRNA Moleküle) lässt sich auf verschiedene Weisen durchführen. Eine Möglichkeit ist ein DNA-Microarray (s. unten). Eine andere Möglichkeit ist die RNA-Sequenzierung. Zum Ablauf RNA-Sequenzierung vergleiche [[5_Transkriptom RNA Seq 2]]. Für beide Analysemethoden ist jedoch die gleiche sample preparation notwendig. &lt;br /&gt;
# mRNA Extraktion aus dem Organismus &lt;br /&gt;
# mRNA wird durch Reverse Transkriptase zu cDNA umgeschrieben &lt;br /&gt;
→ dann folgt die Expressionsanalyse durch genannte Methoden&lt;br /&gt;
&lt;br /&gt;
== Sequenzierung ==&lt;br /&gt;
Für die quantitativen und qualitativen Bestimmungen von Sequenzen bei der Transkriptomanalyse durch die RNA-Sequenzierung müssen, wie der Name schon verrät, die cDNA-Sequenzen sequenziert werden. Hierfür werden die NGS Methoden wie Illumina verwendet. &lt;br /&gt;
&lt;br /&gt;
=== '''N'''ext '''G'''eneration '''S'''equencing (NGS) ===&lt;br /&gt;
==== Illumina Sequencing (2nd Generation Sequencing) ====&lt;br /&gt;
&lt;br /&gt;
[[File:Cluster Generation.png|center|thumb|600px|1. Nach der Fragmentierung und Legierung der Adapter-Molekülen, heften sich die Fragmente an komplementäre Adaptersequenzen in der &amp;quot;flow cell&amp;quot;. 2. Die DNA biegt sich um den zweiten Adapter zu hybridisieren. 3-4. Die Polymerase synthetisiert den komplementären Strang. 5. Die Stränge denaturieren und bilden neue Brücken. Das Resultat sind Cluster der DNA-Stränge.]]&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Ergebnis der Illumina Sequenzierung:&lt;br /&gt;
* Länge der reads 50-600bp&lt;br /&gt;
* Fehlerrate ca. 0,1%&lt;br /&gt;
* humanes Genom kann 30x am Tag sequenziert werden&lt;br /&gt;
* Daten werden in FASTQ Format geliefert&lt;br /&gt;
&lt;br /&gt;
== FASTQ ==&lt;br /&gt;
Die NGS-Sequenzierergebnisse werden in diesem textbasierten-Format geliefert, dass zur Speicherung von DNA/RNA-Sequenzen dient.&lt;br /&gt;
Eine FASTQ-Datei ist folgendermaßen aufgebaut: &amp;lt;/br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 @ Identifier  # Sequenz identifier&lt;br /&gt;
 GATCTT        # Sequenz&lt;br /&gt;
 +             # optionale Beschreibung&lt;br /&gt;
 !'CC'*+*!?    # Qualität jedes Nukleotids (Zahlenwert repräsentiert durch [https://de.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange#ASCII-Tabelle ASCII Tabelle])&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Problem ===&lt;br /&gt;
Viele kurze reads, die in einen Zusammenhang gebracht werden müssen! Um Lücken in der Sequenz zu vermeiden, muss die Sequenziertiefe angepasst werden.&lt;br /&gt;
&lt;br /&gt;
== Microarrays ==&lt;br /&gt;
In Zuge dieser Vorlesung wird unter Microarrays die DNA-Chip Microarray-Methode verstanden. Mit dieser molekularbiologischen Methode lässt sich der Grad der Genexpression in einem Organismus von einer großen Anzahl an Genen gleichzeitig messen. Es wird also gemessen, welche Gene unter welchen Bedingungen wie stark aktiv sind. Stellt Damit eine alternative zur RNA-Seq. dar, bei der die Auswertung mit Hilfe von NGS erfolgt. &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Ablauf ===&lt;br /&gt;
Auf einer Oberfläche z.B. Glas befinden sich in einer bestimmten Anordnung immobilisierte DNA-Fragmente, so dass die Sequenz der DNA-Fragmente an jeder Position bekannt ist. Diese kurzen Oligonucleotide sind Sequenzabschnitte bekannter Gene des zu untersuchenden Organismus und deshalb komplementär zu cDNA-Sequenzen, dessen qualitative und quantitative Expression überprüft werden soll. Wobei sich nicht nur um ein oliginukleotid sondern um eine große Anzahl der selben oligonucleotide auf einen spot handelt. Nach der sample preparation erhält man cDNA. Die einzelsträngige cDNA ist floureszens markiert. Die Markierung kann z.B. durch die Verwendung von bereits floureszenzmarkierten dNTPs während der cDNA-Synthese erfolgen. Die cDNA der Probe wird auf den Chip aufgetragen und hybridisiert mit den komplementären Sequenzen. Nach der Fixierung werden die ungebundenen cDNA-Stränge heruntergewaschen. Überall dort wo dann Floureszenz zu messen ist, hat die cDNA an die komplementäre Oligonucleotid gebunden. Weil bekannt ist an welcher Stelle, welches Gensequenzoligonukleotid immobilisiert ist, kann so darauf geschlossen werden, welche Gene im untersuchten Organsimus exprimiert wurden. Die Intensität der Floureszenz korreliert mit der Anzahl an gebundenen cDNA Strängen pro Spot, wass wiederum mit dem Expressionslevel des Gens korreliert. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Hauptsächlich werden sie genutzt um mehrer Proben gleichzeitig zu Vergleichen. Wobei es sich um den vergleich der Genexpressionsmuster unter versch. Bedingungen handelt. &lt;br /&gt;
Man unterscheidet dabei zwei Herangehensweisen: &amp;lt;br&amp;gt;&lt;br /&gt;
One-color technique: &amp;lt;br&amp;gt;&lt;br /&gt;
Die cDNA von zwei verscheiden Proben werden mit unterschiedlichen Farben markiert. Die Proben werden jeweils auf ein Mikroarray gegeben und hybridisieren dort. Die Auswertung erfolgt indem die Bilder der Microarrays übereinander gelegt werden. Dort wo nur cDNA einer Probe gebunden hat, ist die entsprechende Farbe der Probe zu beobachten, dort wo beide gebunden haben, ist eine Farbe zu beobachten, die sich aus der Mischung beider einzelnen Probenfarben ergibt. &amp;lt;br&amp;gt;&lt;br /&gt;
Two-color technique: &amp;lt;br&amp;gt;&lt;br /&gt;
Die cDNA von zwei verschiedenen Proben werden mit unterschiedlichen Farben markiert. Die zwei Proben werden dann zusammengemsicht und auf einen DNA Chip gegeben und hybridisieren dort kompetitiv. Dort wo nur cDNA einer Probe gebunden hat, ist die entsprechende Farbe der Probe zu beobachten, dort wo beide gebunden haben, ist eine Farbe zu beobachten, die sich aus der Mischung beider einzelnen Probenfarben ergibt. &lt;br /&gt;
&lt;br /&gt;
[[File:Cdnaarray.jpg|thumb|center|Ausschnitt aus einem cDNA-Microarraychip]]&lt;br /&gt;
==== Nachteile ====&lt;br /&gt;
Die Microarray-Technologie tritt heutzutage etwas in den Hintergrund, da die Methode einigen Einschränkungen unterliegt. Zum einen löst das Microarray die Sequenz nicht auf die Einzelbase auf, weshalb Mutanten und Splicevarianten oftmals nicht bestimmt werden können. Dies liegt daran, dass auch Sequenzen hybridisieren, die nicht 100% übereinstimmen. Außerdem beruht die Methode auf optischer Messung, was bedeutet, dass ein gewisses Maß an Hintergrundrauschen unvermeidbar ist und eine Messuntergrenze besteht. Somit kann es vorkommen, dass geringe Mengen an bestimmten Sequenzen nicht nachgewiesen werden können. Diese Methode besitzt zudem eine Messobergrenze, denn wenn alle Sonden in einem Spot hybridisiert haben, kann weitere komplementäre cDNA nicht binden und verfällt wenn sie herunter gewaschen wird. Zudem können nur Proben von  Organismen verwendet werden, bei denen die Sequenz bereits bekannt ist.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Assembly ==&lt;br /&gt;
Assembly ist ein Bioinformatisches Verfahren, bei dem überlappende reads zu Contiqs und anschließend zu Scaffolds zusammengesetzt werden. Wenn das Genom bereits bekannt ist können die Scaffolds an ein Referenzgenom aligned werden, wobei man diese Art der Assemblierung als Alignment oder Assemblierung mit Hilfe eines Referenzgenoms bezeichnet. Liegt keine Referenz vor, bezeichnet man sie als de novo Assemblierung. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Assembly.jpg|600px|center|thumb]]&lt;br /&gt;
&lt;br /&gt;
Contiq: Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken.&lt;br /&gt;
&lt;br /&gt;
Scaffold: Bestehend aus Contiqs und Lücken (auch Supercontiqs genannt); definieren die Reihenfolge, Orientierung und Größe der Lücken zwischen den Contiqs.&lt;br /&gt;
&lt;br /&gt;
Beim NGS wird eine gewünschte Target-Sequenz mithilfe der Shotgun-Methode sequenziert, sodass viele kleine DNA-Fragmente (reads) entstehen. Diese sind vollkommen ungeordnet und in keiner Weise miteinander in Bezug gesetzt. Durch das Assembly wird die eigentliche Sequenz aus den erhaltenen reads rekonstruiert und zusammengesetzt. Da NGS heutzutage vollem bei größeren Sequenzierungen hauptsächlich angewendet werden, ist immer eine Assemblierung des reads notwendig.&lt;br /&gt;
&lt;br /&gt;
== Lander-Waterman-Modell ==&lt;br /&gt;
* stellt die statistische Wahrscheinlichkeit für das Auftreten von gaps dar&lt;br /&gt;
* dient somit der Errechnung nicht abgedeckter Basenpaare bei einer Sequenzierung&lt;br /&gt;
&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
P&amp;lt;sub&amp;gt;[nicht abgedecktes Bp]&amp;lt;/sub&amp;gt; = e&amp;lt;sup&amp;gt;&amp;lt;big&amp;gt;-c&amp;lt;/big&amp;gt;&amp;lt;/sup&amp;gt;&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
* P gibt die Anzahl an Basenpaaren an nach denen statistisch ein gap erwartet wird &lt;br /&gt;
* dabei ist C die Coverage, also die Anzahl an reads an einer beliebigen Stelle der Sequenz, die diese Stelle abdecken &lt;br /&gt;
&amp;lt;/br&amp;gt;&lt;br /&gt;
* rechnet man mit der gegeben Formel für P, erhält man erstmal die Wahrscheinlichkeit für das Auftreten eines gaps, bei einer bestimmten Coverage&lt;br /&gt;
* um die tatsächliche Anzahl an bp zu bekommen nach der statistisch ein gap auftritt, ist es notwenndig&lt;br /&gt;
&amp;lt;math&amp;gt;  \frac{1}{P} &amp;lt;/math&amp;gt; zu teilen &lt;br /&gt;
&lt;br /&gt;
G: Länge der Genomsequenz &amp;lt;/br&amp;gt;&lt;br /&gt;
N: Anzahl der reads &amp;lt;/br&amp;gt;&lt;br /&gt;
L: durchschnittliche Länge der reads &amp;lt;/br&amp;gt;&lt;br /&gt;
C: Coverage (Abdeckung) &amp;lt;/br&amp;gt;&lt;br /&gt;
&amp;lt;/br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt; C= \frac{N*L}{G} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Beispiele:&amp;lt;/br&amp;gt;&lt;br /&gt;
C=10 →  1 Gap in 22000 Bp  &lt;br /&gt;
&lt;br /&gt;
C=22 →  1 Gap in 3,6*10&amp;lt;sup&amp;gt;9&amp;lt;/sup&amp;gt; Bp     &lt;br /&gt;
&lt;br /&gt;
C=30 → So tief, dass quasi alles überdeckt wird&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2_Transkriptom_RNA_Seq_1&amp;diff=915</id>
		<title>2 Transkriptom RNA Seq 1</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=2_Transkriptom_RNA_Seq_1&amp;diff=915"/>
		<updated>2021-09-25T13:56:39Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* Lander-Waterman-Modell */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
== Biologische Fragestellung ==&lt;br /&gt;
Das NAT8L Gen scheint im Metabolismus von Krebszellen eine Rolle zu spielen. Unser Projekt befasst sich mit Lungenkrebs. Daraus folg folgende Frage: Ist NAT8L in Lungenkrebszellen erhöht exprimiert ? &amp;lt;br&amp;gt;&lt;br /&gt;
Die Frage impliziert weitere Überlegungen z.B. ob NAT8L essentiell für das Wachstum von Krebszellen ist und ob eine Inhibierung der NAT8L Expression die Tumorbildung hemmen würde. &lt;br /&gt;
&lt;br /&gt;
Um die Frage zu beantworten sind folgende drei Schritte notwendig: &amp;lt;br&amp;gt;&lt;br /&gt;
Schritt 1: &lt;br /&gt;
* Abfragen von Datenbanken (vielleicht wurden bereits ähnliche Experimente durchgeführt) &amp;lt;br&amp;gt;&lt;br /&gt;
Schritt 2: &lt;br /&gt;
* aus Datenbanken haben wir herausgefunden, dass NAT8L in Lungenkrebszellen erhöht expliziert wird &amp;lt;br&amp;gt;&lt;br /&gt;
Schritt 3: &lt;br /&gt;
* in einem Experiment soll versucht werden die Genexpression durch RNAi (RNA interference) zu silencen&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
[[File:Experiment_Skizze.jpg|400px|center|thumb]]&lt;br /&gt;
* aus zwei Tumorzellkulturen wird die mRNA extrahiert&lt;br /&gt;
* mit Hilfe der reversen Transkriptase wird cDNA transkribiert&lt;br /&gt;
* cDNA wird sequenziert&lt;br /&gt;
* Sequenzunterschiede können analysiert werden &amp;lt;br&amp;gt;&lt;br /&gt;
Dem Experiment liegt die Transkriptomanalyse zugrunde, welche eine quantitative und qualitative Bestimmung aller Transkriptionsaktivitäten ermöglicht. D.h. die Erfassung aller mRNA-Moleküle, wodurch auf die Aktivität bestimmter Gene unter bestimmten Bedingungen zurückschließen lässt. Eine Trannskriptomanalyse (also die Erfassung der Gesamtheit aller in einer Zelle unter einer bestimmte Bedingung erzeugten mRNA Moleküle) lässt sich auf verschiedene Weisen durchführen. Eine Möglichkeit ist ein DNA-Microarray (s. unten). Eine andere Möglichkeit ist die RNA-Sequenzierung. Zum Ablauf RNA-Sequenzierung vergleiche [[5_Transkriptom RNA Seq 2]]. Für beide Analysemethoden ist jedoch die gleiche sample preparation notwendig. &lt;br /&gt;
# mRNA Extraktion aus dem Organismus &lt;br /&gt;
# mRNA wird durch Reverse Transkriptase zu cDNA umgeschrieben &lt;br /&gt;
→ dann folgt die Expressionsanalyse durch genannte Methoden&lt;br /&gt;
&lt;br /&gt;
== Sequenzierung ==&lt;br /&gt;
Für die quantitativen und qualitativen Bestimmungen von Sequenzen bei der Transkriptomanalyse durch die RNA-Sequenzierung müssen, wie der Name schon verrät, die cDNA-Sequenzen sequenziert werden. Hierfür werden die NGS Methoden wie Illumina verwendet. &lt;br /&gt;
&lt;br /&gt;
=== '''N'''ext '''G'''eneration '''S'''equencing (NGS) ===&lt;br /&gt;
==== Illumina Sequencing (2nd Generation Sequencing) ====&lt;br /&gt;
&lt;br /&gt;
[[File:Cluster Generation.png|center|thumb|600px|1. Nach der Fragmentierung und Legierung der Adapter-Molekülen, heften sich die Fragmente an komplementäre Adaptersequenzen in der &amp;quot;flow cell&amp;quot;. 2. Die DNA biegt sich um den zweiten Adapter zu hybridisieren. 3-4. Die Polymerase synthetisiert den komplementären Strang. 5. Die Stränge denaturieren und bilden neue Brücken. Das Resultat sind Cluster der DNA-Stränge.]]&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Ergebnis der Illumina Sequenzierung:&lt;br /&gt;
* Länge der reads 50-600bp&lt;br /&gt;
* Fehlerrate ca. 0,1%&lt;br /&gt;
* humanes Genom kann 30x am Tag sequenziert werden&lt;br /&gt;
* Daten werden in FASTQ Format geliefert&lt;br /&gt;
&lt;br /&gt;
== FASTQ ==&lt;br /&gt;
Die NGS-Sequenzierergebnisse werden in diesem textbasierten-Format geliefert, dass zur Speicherung von DNA/RNA-Sequenzen dient.&lt;br /&gt;
Eine FASTQ-Datei ist folgendermaßen aufgebaut: &amp;lt;/br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 @ Identifier  # Sequenz identifier&lt;br /&gt;
 GATCTT        # Sequenz&lt;br /&gt;
 +             # optionale Beschreibung&lt;br /&gt;
 !'CC'*+*!?    # Qualität jedes Nukleotids (Zahlenwert repräsentiert durch [https://de.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange#ASCII-Tabelle ASCII Tabelle])&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Problem ===&lt;br /&gt;
Viele kurze reads, die in einen Zusammenhang gebracht werden müssen! Um Lücken in der Sequenz zu vermeiden, muss die Sequenziertiefe angepasst werden.&lt;br /&gt;
&lt;br /&gt;
== Microarrays ==&lt;br /&gt;
In Zuge dieser Vorlesung wird unter Microarrays die DNA-Chip Microarray-Methode verstanden. Mit dieser molekularbiologischen Methode lässt sich der Grad der Genexpression in einem Organismus von einer großen Anzahl an Genen gleichzeitig messen. Es wird also gemessen, welche Gene unter welchen Bedingungen wie stark aktiv sind. Stellt Damit eine alternative zur RNA-Seq. dar, bei der die Auswertung mit Hilfe von NGS erfolgt. &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Ablauf ===&lt;br /&gt;
Auf einer Oberfläche z.B. Glas befinden sich in einer bestimmten Anordnung immobilisierte DNA-Fragmente, so dass die Sequenz der DNA-Fragmente an jeder Position bekannt ist. Diese kurzen Oligonucleotide sind Sequenzabschnitte bekannter Gene des zu untersuchenden Organismus und deshalb komplementär zu cDNA-Sequenzen, dessen qualitative und quantitative Expression überprüft werden soll. Wobei sich nicht nur um ein oliginukleotid sondern um eine große Anzahl der selben oligonucleotide auf einen spot handelt. Nach der sample preparation erhält man cDNA. Die einzelsträngige cDNA ist floureszens markiert. Die Markierung kann z.B. durch die Verwendung von bereits floureszenzmarkierten dNTPs während der cDNA-Synthese erfolgen. Die cDNA der Probe wird auf den Chip aufgetragen und hybridisiert mit den komplementären Sequenzen. Nach der Fixierung werden die ungebundenen cDNA-Stränge heruntergewaschen. Überall dort wo dann Floureszenz zu messen ist, hat die cDNA an die komplementäre Oligonucleotid gebunden. Weil bekannt ist an welcher Stelle, welches Gensequenzoligonukleotid immobilisiert ist, kann so darauf geschlossen werden, welche Gene im untersuchten Organsimus exprimiert wurden. Die Intensität der Floureszenz korreliert mit der Anzahl an gebundenen cDNA Strängen pro Spot, wass wiederum mit dem Expressionslevel des Gens korreliert. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Hauptsächlich werden sie genutzt um mehrer Proben gleichzeitig zu Vergleichen. Wobei es sich um den vergleich der Genexpressionsmuster unter versch. Bedingungen handelt. &lt;br /&gt;
Man unterscheidet dabei zwei Herangehensweisen: &amp;lt;br&amp;gt;&lt;br /&gt;
One-color technique: &amp;lt;br&amp;gt;&lt;br /&gt;
Die cDNA von zwei verscheiden Proben werden mit unterschiedlichen Farben markiert. Die Proben werden jeweils auf ein Mikroarray gegeben und hybridisieren dort. Die Auswertung erfolgt indem die Bilder der Microarrays übereinander gelegt werden. Dort wo nur cDNA einer Probe gebunden hat, ist die entsprechende Farbe der Probe zu beobachten, dort wo beide gebunden haben, ist eine Farbe zu beobachten, die sich aus der Mischung beider einzelnen Probenfarben ergibt. &amp;lt;br&amp;gt;&lt;br /&gt;
Two-color technique: &amp;lt;br&amp;gt;&lt;br /&gt;
Die cDNA von zwei verschiedenen Proben werden mit unterschiedlichen Farben markiert. Die zwei Proben werden dann zusammengemsicht und auf einen DNA Chip gegeben und hybridisieren dort kompetitiv. Dort wo nur cDNA einer Probe gebunden hat, ist die entsprechende Farbe der Probe zu beobachten, dort wo beide gebunden haben, ist eine Farbe zu beobachten, die sich aus der Mischung beider einzelnen Probenfarben ergibt. &lt;br /&gt;
&lt;br /&gt;
[[File:Cdnaarray.jpg|thumb|center|Ausschnitt aus einem cDNA-Microarraychip]]&lt;br /&gt;
==== Nachteile ====&lt;br /&gt;
Die Microarray-Technologie tritt heutzutage etwas in den Hintergrund, da die Methode einigen Einschränkungen unterliegt. Zum einen löst das Microarray die Sequenz nicht auf die Einzelbase auf, weshalb Mutanten und Splicevarianten oftmals nicht bestimmt werden können. Dies liegt daran, dass auch Sequenzen hybridisieren, die nicht 100% übereinstimmen. Außerdem beruht die Methode auf optischer Messung, was bedeutet, dass ein gewisses Maß an Hintergrundrauschen unvermeidbar ist und eine Messuntergrenze besteht. Somit kann es vorkommen, dass geringe Mengen an bestimmten Sequenzen nicht nachgewiesen werden können. Diese Methode besitzt zudem eine Messobergrenze, denn wenn alle Sonden in einem Spot hybridisiert haben, kann weitere komplementäre cDNA nicht binden und verfällt wenn sie herunter gewaschen wird. Zudem können nur Proben von  Organismen verwendet werden, bei denen die Sequenz bereits bekannt ist.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Assembly ==&lt;br /&gt;
Assembly ist ein Bioinformatisches Verfahren, bei dem überlappende reads zu Contiqs und anschließend zu Scaffolds zusammengesetzt werden. Wenn das Genom bereits bekannt ist können die Scaffolds an ein Referenzgenom aligned werden, wobei man diese Art der Assemblierung als Alignment oder Assemblierung mit Hilfe eines Referenzgenoms bezeichnet. Liegt keine Referenz vor, bezeichnet man sie als de novo Assemblierung. &lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Assembly.jpg|600px|center|thumb]]&lt;br /&gt;
&lt;br /&gt;
Contiq: Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken.&lt;br /&gt;
&lt;br /&gt;
Scaffold: Bestehend aus Contiqs und Lücken (auch Supercontiqs genannt); definieren die Reihenfolge, Orientierung und Größe der Lücken zwischen den Contiqs.&lt;br /&gt;
&lt;br /&gt;
Beim NGS wird eine gewünschte Target-Sequenz mithilfe der Shotgun-Methode sequenziert, sodass viele kleine DNA-Fragmente (reads) entstehen. Diese sind vollkommen ungeordnet und in keiner Weise miteinander in Bezug gesetzt. Durch das Assembly wird die eigentliche Sequenz aus den erhaltenen reads rekonstruiert und zusammengesetzt. Da NGS heutzutage vollem bei größeren Sequenzierungen hauptsächlich angewendet werden, ist immer eine Assemblierung des reads notwendig.&lt;br /&gt;
&lt;br /&gt;
== Lander-Waterman-Modell ==&lt;br /&gt;
* stellt die statistische Wahrscheinlichkeit für das Auftreten von gaps dar&lt;br /&gt;
* dient somit der Errechnung nicht abgedeckter Basenpaare bei einer Sequenzierung&lt;br /&gt;
&lt;br /&gt;
&amp;lt;big&amp;gt;&lt;br /&gt;
P&amp;lt;sub&amp;gt;[nicht abgedecktes Bp]&amp;lt;/sub&amp;gt; = e&amp;lt;sup&amp;gt;&amp;lt;big&amp;gt;-c&amp;lt;/big&amp;gt;&amp;lt;/sup&amp;gt;&lt;br /&gt;
&amp;lt;/big&amp;gt;&lt;br /&gt;
* P gibt die Anzahl an Basenpaaren an nach denen statistisch ein gap erwartet wird &lt;br /&gt;
* dabei ist C die Coverage, also die Anzahl an reads an einer beliebigen Stelle der Sequenz, die diese Stelle abdecken &lt;br /&gt;
&amp;lt;/br&amp;gt;&lt;br /&gt;
* rechnet man mit der gegeben Formel für P, erhält man erstmal die Wahrscheinlichkeit für das Auftreten eines gaps, bei einer bestimmten Coverage&lt;br /&gt;
* um die tatsächliche Anzahl an bp zu bekommen nach der statistisch ein gap auftritt, ist es notwenndig&lt;br /&gt;
&amp;lt;math&amp;gt;  \frac{1}{P} &amp;lt;/math&amp;gt; &lt;br /&gt;
&lt;br /&gt;
G: Länge der Genomsequenz &amp;lt;/br&amp;gt;&lt;br /&gt;
N: Anzahl der reads &amp;lt;/br&amp;gt;&lt;br /&gt;
L: durchschnittliche Länge der reads &amp;lt;/br&amp;gt;&lt;br /&gt;
C: Coverage (Abdeckung) &amp;lt;/br&amp;gt;&lt;br /&gt;
&amp;lt;/br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt; C= \frac{N*L}{G} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Beispiele:&amp;lt;/br&amp;gt;&lt;br /&gt;
C=10 →  1 Gap in 22000 Bp  &lt;br /&gt;
&lt;br /&gt;
C=22 →  1 Gap in 3,6*10&amp;lt;sup&amp;gt;9&amp;lt;/sup&amp;gt; Bp     &lt;br /&gt;
&lt;br /&gt;
C=30 → So tief, dass quasi alles überdeckt wird&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=4_Burrows-Wheeler&amp;diff=914</id>
		<title>4 Burrows-Wheeler</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=4_Burrows-Wheeler&amp;diff=914"/>
		<updated>2021-09-23T19:01:20Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* Rücktransformation - Last-First Zuordnung */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
== Burrows-Wheeler Transformation ==&lt;br /&gt;
Die Burrows-Wheeler Transformation wurde in der Informatik ursprünglich zur Optimierung von Daten-Kompression entwickelt.&amp;lt;br&amp;gt;&lt;br /&gt;
Sie eignet sich auch gut zur effizienten Suche großer Texte und somit zur Suche eines optimalen Alignments.&amp;lt;br&amp;gt;&lt;br /&gt;
Ein BWT basierender Algorithmus wird zur Assemblierung der “reads” einer RNASeq verwendet.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Vorteile'''&amp;lt;br&amp;gt;&lt;br /&gt;
* Sehr schnell und verbraucht wenig Speicher&amp;lt;br&amp;gt;&lt;br /&gt;
* Eine Rücktransformation ist verlustfrei möglich &amp;lt;br&amp;gt;&lt;br /&gt;
* Kein Informationsverlust beim Sortieren&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Transformation === &lt;br /&gt;
Beispiel an der Sequenz T = ACAACG$&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''1. Generierung aller cyclischen Verschiebungen von T'''&amp;lt;br&amp;gt;&lt;br /&gt;
Die Sequenz wird cyklisch um eine Stelle verschoben, bis die ursprüngliche Sequenz wieder erreicht ist.&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Burrows_Wheeler_zyklische_Verschiebung_.png|thumb|center]]&lt;br /&gt;
In rot ist der 'Suffix-Array' dargestellt.&lt;br /&gt;
&lt;br /&gt;
'''2. Sortierung'''&amp;lt;br&amp;gt;&lt;br /&gt;
Die cyklische Rotation von 'T' wird alphabetisch sortiert, dabei hat das Sonderzeichen (in diesem Fall $) den niedrigsten Wert. (Wird also immer nach vorne gestellt, da es noch vor 1 bzw A kommt)&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Alphabetische_Sortierung_BWT.png|thumb|center]]&lt;br /&gt;
Die letzte Spalte wird als '''Burrows-Wheeler Transformation''' (BWT) bezeichnet.&amp;lt;br&amp;gt;&lt;br /&gt;
ACAACG$ → CC$AAAC&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Eigenschaften der BWT :'''&amp;lt;br&amp;gt;&lt;br /&gt;
* Hat die gleiche Länge, wie die Originalsequenz &amp;lt;br&amp;gt;&lt;br /&gt;
* Originalsequenz T kann direkt aus BWT regeneriert werden&lt;br /&gt;
&lt;br /&gt;
=== Rücktransformation - Last-First Zuordnung ===&lt;br /&gt;
Aus der BWT lässt sich die Originalsequenz rekonstruieren. Die Rekonstruktion folgt dem Prinzip:&lt;br /&gt;
Die 'i'te Position des Buchstaben x in der letzten Spalte (Transformation) entspricht der 'i'ten Position in der 1. Spalte&amp;lt;br&amp;gt;&lt;br /&gt;
Der erste Schritt die die Wiederherstellung der ersten Spalte. Da es sich um die alphabetisch sortierten Sequenzen gehandelt hat, lässt sich die erste Spalte einfach durch eine erneute alphabetische Sortierung der BWT wiederherstellen. Um die Originalsequenz zu erhalten, startet man in der ersten Zeile. Von der ersten Zeile wissen wir, dass es sich um die Originalsequenz handelt (außer, dass das Sonderzeichen vorne steht), d.h. auch der letzte Buchstabe der ersten Zeile entspricht dem letzten Element in der Originalsequenz. Hier mit einem gelben Kästchen markiert. Auch die Indexzahl 9 kann dem Buchstaben zugeordnet werden, da es sich um den letzten Buchstaben handelt. Von dort ausgehend kann das oben genannte Prinzip zur Rekonstruktion angewendet werden. Demnach entspricht die erste Position (es handelt sich um das erste A in der BWT) des Buchstabens &amp;quot;A&amp;quot; in der letzten Spalte, dem ersten &amp;quot;A&amp;quot; in der ersten Spalte. Es handelt sich also um das selbe &amp;quot;A&amp;quot; (gekennzeichnet durch den schwarzen diagonal verlaufenden Pfeil). Demnach ist das A in der ersten Spalte (hier zweite Zeile) die zyklische Verschiebung des A in der letzen Spalte (erste Zeile). Logischerweise ist damit der letzte Buchstabe der zweiten Zeile, der Buchstabe der in der Originalsequenz vor dem &amp;quot;A&amp;quot; kommt. Das &amp;quot;T&amp;quot; kann also vor das &amp;quot;A&amp;quot; geschrieben werden und den Index 8 bekommen, usw. &lt;br /&gt;
&lt;br /&gt;
[[File:Rücktransformation.png|200px|thumb|center|Rücktransformation]]&lt;br /&gt;
&lt;br /&gt;
=== Alignment === &lt;br /&gt;
&lt;br /&gt;
In diesem Beispiel wird nach der Sequenz 'AAC' in der Originalsequenz T gesucht. Dafür werden wieder nur die erste und letzte Spalte der alphabetischen Sortierung benötigt. &amp;lt;br&amp;gt;&lt;br /&gt;
Begonnen wird mit der Suche des ersten Zeichens der gesuchten Sequenz 'C', in der ersten Spalte. Das Intervall wird auf die letzte Spalte, der gleichen Zeilen übertragen. &lt;br /&gt;
[[File:Alignment1.png|thumb|center]]&lt;br /&gt;
Das nächste gesuchte Zeichen ist ein 'A', beide Zeichen des Intervalls stimmen damit überein. Da es das 2. und 3. 'A' in dieser Spalte sind, wird wieder in der ersten Spalte nach den entsprechenden Zeichen gesucht. Das nächste Zeichen der gesuchten Sequenz ist ein 'A', da dieses in den entsprechenden Zeilen nur ein mal vorkommt, wird das Intervall verkleinert und somit so angepasst, dass nur die gesuchten Zeichen darin vorkommen. &lt;br /&gt;
[[File:Alignment2.png|thumb|center]]&lt;br /&gt;
&lt;br /&gt;
Der Suffix-Array an dieser Position ist '3'. Demzufolge beginnt die gesuchte Sequenz an der 3.Position in der Originalsequenz.&lt;br /&gt;
[[File:Alignment3.png|thumb|center]]&lt;br /&gt;
&lt;br /&gt;
Diese Burrows-Wheeler Transformation kann mit jeder beliebigen Sequenz durchgeführt werden und ermöglicht eine effektive Suche nach einem lokalen Alignment.&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=4_Burrows-Wheeler&amp;diff=913</id>
		<title>4 Burrows-Wheeler</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=4_Burrows-Wheeler&amp;diff=913"/>
		<updated>2021-09-23T18:52:57Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* Rücktransformation - Last-First Zuordnung */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
== Burrows-Wheeler Transformation ==&lt;br /&gt;
Die Burrows-Wheeler Transformation wurde in der Informatik ursprünglich zur Optimierung von Daten-Kompression entwickelt.&amp;lt;br&amp;gt;&lt;br /&gt;
Sie eignet sich auch gut zur effizienten Suche großer Texte und somit zur Suche eines optimalen Alignments.&amp;lt;br&amp;gt;&lt;br /&gt;
Ein BWT basierender Algorithmus wird zur Assemblierung der “reads” einer RNASeq verwendet.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Vorteile'''&amp;lt;br&amp;gt;&lt;br /&gt;
* Sehr schnell und verbraucht wenig Speicher&amp;lt;br&amp;gt;&lt;br /&gt;
* Eine Rücktransformation ist verlustfrei möglich &amp;lt;br&amp;gt;&lt;br /&gt;
* Kein Informationsverlust beim Sortieren&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Transformation === &lt;br /&gt;
Beispiel an der Sequenz T = ACAACG$&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''1. Generierung aller cyclischen Verschiebungen von T'''&amp;lt;br&amp;gt;&lt;br /&gt;
Die Sequenz wird cyklisch um eine Stelle verschoben, bis die ursprüngliche Sequenz wieder erreicht ist.&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Burrows_Wheeler_zyklische_Verschiebung_.png|thumb|center]]&lt;br /&gt;
In rot ist der 'Suffix-Array' dargestellt.&lt;br /&gt;
&lt;br /&gt;
'''2. Sortierung'''&amp;lt;br&amp;gt;&lt;br /&gt;
Die cyklische Rotation von 'T' wird alphabetisch sortiert, dabei hat das Sonderzeichen (in diesem Fall $) den niedrigsten Wert. (Wird also immer nach vorne gestellt, da es noch vor 1 bzw A kommt)&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Alphabetische_Sortierung_BWT.png|thumb|center]]&lt;br /&gt;
Die letzte Spalte wird als '''Burrows-Wheeler Transformation''' (BWT) bezeichnet.&amp;lt;br&amp;gt;&lt;br /&gt;
ACAACG$ → CC$AAAC&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Eigenschaften der BWT :'''&amp;lt;br&amp;gt;&lt;br /&gt;
* Hat die gleiche Länge, wie die Originalsequenz &amp;lt;br&amp;gt;&lt;br /&gt;
* Originalsequenz T kann direkt aus BWT regeneriert werden&lt;br /&gt;
&lt;br /&gt;
=== Rücktransformation - Last-First Zuordnung ===&lt;br /&gt;
Aus der BWT lässt sich die Originalsequenz rekonstruieren. Die Rekonstruktion folgt dem Prinzip:&lt;br /&gt;
Die 'i'te Position des Buchstaben x in der letzten Spalte (Transformation) entspricht der 'i'ten Position in der 1. Spalte&amp;lt;br&amp;gt;&lt;br /&gt;
Der erste Schritt die die Wiederherstellung der ersten Spalte. Da es sich um die alphabetisch sortierten Sequenzen gehandelt hat, lässt sich die erste Spalte einfach durch eine erneute alphabetische Sortierung der BWT wiederherstellen. Um die Originalsequenz zu erhalten, startet man in der ersten Zeile. Von der ersten Zeile wissen wir, dass es sich um die Originalsequenz handelt (außer, dass das Sonderzeichen vorne steht), d.h. auch der letzte Buchstabe der ersten Zeile entspricht dem letzten Element in der Originalsequenz. Hier mit einem gelben Kästchen markiert. Auch die Indexzahl 9 kann dem Buchstaben zugeordnet werden, da es sich um den letzten Buchstaben handelt. Von dort ausgehend kann das oben genannte Prinzip zur Rekonstruktion angewendet werden. Demnach entspricht die erste Position (es handelt sich um das erste A in der BWT) des Buchstabens &amp;quot;A&amp;quot; in der letzten Spalte, dem ersten &amp;quot;A&amp;quot; in der ersten Spalte. &lt;br /&gt;
&lt;br /&gt;
[[File:Rücktransformation.png|200px|thumb|center|Rücktransformation]]&lt;br /&gt;
&lt;br /&gt;
=== Alignment === &lt;br /&gt;
&lt;br /&gt;
In diesem Beispiel wird nach der Sequenz 'AAC' in der Originalsequenz T gesucht. Dafür werden wieder nur die erste und letzte Spalte der alphabetischen Sortierung benötigt. &amp;lt;br&amp;gt;&lt;br /&gt;
Begonnen wird mit der Suche des ersten Zeichens der gesuchten Sequenz 'C', in der ersten Spalte. Das Intervall wird auf die letzte Spalte, der gleichen Zeilen übertragen. &lt;br /&gt;
[[File:Alignment1.png|thumb|center]]&lt;br /&gt;
Das nächste gesuchte Zeichen ist ein 'A', beide Zeichen des Intervalls stimmen damit überein. Da es das 2. und 3. 'A' in dieser Spalte sind, wird wieder in der ersten Spalte nach den entsprechenden Zeichen gesucht. Das nächste Zeichen der gesuchten Sequenz ist ein 'A', da dieses in den entsprechenden Zeilen nur ein mal vorkommt, wird das Intervall verkleinert und somit so angepasst, dass nur die gesuchten Zeichen darin vorkommen. &lt;br /&gt;
[[File:Alignment2.png|thumb|center]]&lt;br /&gt;
&lt;br /&gt;
Der Suffix-Array an dieser Position ist '3'. Demzufolge beginnt die gesuchte Sequenz an der 3.Position in der Originalsequenz.&lt;br /&gt;
[[File:Alignment3.png|thumb|center]]&lt;br /&gt;
&lt;br /&gt;
Diese Burrows-Wheeler Transformation kann mit jeder beliebigen Sequenz durchgeführt werden und ermöglicht eine effektive Suche nach einem lokalen Alignment.&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:R%C3%BCcktransformation.png&amp;diff=912</id>
		<title>File:Rücktransformation.png</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:R%C3%BCcktransformation.png&amp;diff=912"/>
		<updated>2021-09-23T18:52:03Z</updated>

		<summary type="html">&lt;p&gt;Skl: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=4_Burrows-Wheeler&amp;diff=911</id>
		<title>4 Burrows-Wheeler</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=4_Burrows-Wheeler&amp;diff=911"/>
		<updated>2021-09-23T18:03:50Z</updated>

		<summary type="html">&lt;p&gt;Skl: /* Transformation */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
== Burrows-Wheeler Transformation ==&lt;br /&gt;
Die Burrows-Wheeler Transformation wurde in der Informatik ursprünglich zur Optimierung von Daten-Kompression entwickelt.&amp;lt;br&amp;gt;&lt;br /&gt;
Sie eignet sich auch gut zur effizienten Suche großer Texte und somit zur Suche eines optimalen Alignments.&amp;lt;br&amp;gt;&lt;br /&gt;
Ein BWT basierender Algorithmus wird zur Assemblierung der “reads” einer RNASeq verwendet.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Vorteile'''&amp;lt;br&amp;gt;&lt;br /&gt;
* Sehr schnell und verbraucht wenig Speicher&amp;lt;br&amp;gt;&lt;br /&gt;
* Eine Rücktransformation ist verlustfrei möglich &amp;lt;br&amp;gt;&lt;br /&gt;
* Kein Informationsverlust beim Sortieren&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Transformation === &lt;br /&gt;
Beispiel an der Sequenz T = ACAACG$&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''1. Generierung aller cyclischen Verschiebungen von T'''&amp;lt;br&amp;gt;&lt;br /&gt;
Die Sequenz wird cyklisch um eine Stelle verschoben, bis die ursprüngliche Sequenz wieder erreicht ist.&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Burrows_Wheeler_zyklische_Verschiebung_.png|thumb|center]]&lt;br /&gt;
In rot ist der 'Suffix-Array' dargestellt.&lt;br /&gt;
&lt;br /&gt;
'''2. Sortierung'''&amp;lt;br&amp;gt;&lt;br /&gt;
Die cyklische Rotation von 'T' wird alphabetisch sortiert, dabei hat das Sonderzeichen (in diesem Fall $) den niedrigsten Wert. (Wird also immer nach vorne gestellt, da es noch vor 1 bzw A kommt)&amp;lt;br&amp;gt;&lt;br /&gt;
[[File:Alphabetische_Sortierung_BWT.png|thumb|center]]&lt;br /&gt;
Die letzte Spalte wird als '''Burrows-Wheeler Transformation''' (BWT) bezeichnet.&amp;lt;br&amp;gt;&lt;br /&gt;
ACAACG$ → CC$AAAC&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
'''Eigenschaften der BWT :'''&amp;lt;br&amp;gt;&lt;br /&gt;
* Hat die gleiche Länge, wie die Originalsequenz &amp;lt;br&amp;gt;&lt;br /&gt;
* Originalsequenz T kann direkt aus BWT regeneriert werden&lt;br /&gt;
&lt;br /&gt;
=== Rücktransformation - Last-First Zuordnung ===&lt;br /&gt;
&lt;br /&gt;
Die 'i'te Position des Buchstaben x in der letzten Spalte (Transformation) entspricht der 'i'ten Position in der 1. Spalte&amp;lt;br&amp;gt;&lt;br /&gt;
Benötigt werden nur die erste und letzte Spalte nach der zyklischen Rotation.&amp;lt;br&amp;gt;&lt;br /&gt;
Begonnen wird mit dem ersten Zeichen der BWT, in diesem Fall 'G', dieses stellt das letzte Zeichen der Originalsequenz dar. Da es das 1. 'G' in der Spalte ist, wird auch das 1. 'G' in der ersten Spalte gesucht, das entsprechende Zeichen der letzten Spalte in der gleichen Zeile, ist das vorletzte Zeichen der Originalsequenz. In diesem Fall ist es ''C'.&lt;br /&gt;
[[File:Erster_schritt.png|thumb|center]]&lt;br /&gt;
Da das 'C' das letzte in dieser Spalte ist, wird auch nach dem letzten 'C' in der ersten Spalte gesucht und somit nach dem entsprechenden Zeichen in dieser Zeile. In diesem Fall ist es ein 'A' und dies ist das nächste Zeichen in der Originalsequenz.&lt;br /&gt;
[[File:2._Schritt.png|thumb|center]]&lt;br /&gt;
Nach diesem Schema wird so lange weiter gearbeitet, bis das Sonderzeichen erreicht und die Originalsequenz rekonstruiert ist.&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Alignment === &lt;br /&gt;
&lt;br /&gt;
In diesem Beispiel wird nach der Sequenz 'AAC' in der Originalsequenz T gesucht. Dafür werden wieder nur die erste und letzte Spalte der alphabetischen Sortierung benötigt. &amp;lt;br&amp;gt;&lt;br /&gt;
Begonnen wird mit der Suche des ersten Zeichens der gesuchten Sequenz 'C', in der ersten Spalte. Das Intervall wird auf die letzte Spalte, der gleichen Zeilen übertragen. &lt;br /&gt;
[[File:Alignment1.png|thumb|center]]&lt;br /&gt;
Das nächste gesuchte Zeichen ist ein 'A', beide Zeichen des Intervalls stimmen damit überein. Da es das 2. und 3. 'A' in dieser Spalte sind, wird wieder in der ersten Spalte nach den entsprechenden Zeichen gesucht. Das nächste Zeichen der gesuchten Sequenz ist ein 'A', da dieses in den entsprechenden Zeilen nur ein mal vorkommt, wird das Intervall verkleinert und somit so angepasst, dass nur die gesuchten Zeichen darin vorkommen. &lt;br /&gt;
[[File:Alignment2.png|thumb|center]]&lt;br /&gt;
&lt;br /&gt;
Der Suffix-Array an dieser Position ist '3'. Demzufolge beginnt die gesuchte Sequenz an der 3.Position in der Originalsequenz.&lt;br /&gt;
[[File:Alignment3.png|thumb|center]]&lt;br /&gt;
&lt;br /&gt;
Diese Burrows-Wheeler Transformation kann mit jeder beliebigen Sequenz durchgeführt werden und ermöglicht eine effektive Suche nach einem lokalen Alignment.&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:Alphabetische_Sortierung_BWT.png&amp;diff=910</id>
		<title>File:Alphabetische Sortierung BWT.png</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:Alphabetische_Sortierung_BWT.png&amp;diff=910"/>
		<updated>2021-09-23T17:59:41Z</updated>

		<summary type="html">&lt;p&gt;Skl: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
	<entry>
		<id>http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:Burrows_Wheeler_zyklische_Verschiebung_.png&amp;diff=909</id>
		<title>File:Burrows Wheeler zyklische Verschiebung .png</title>
		<link rel="alternate" type="text/html" href="http://wiki.bioinfo.nat.tu-bs.de/index.php?title=File:Burrows_Wheeler_zyklische_Verschiebung_.png&amp;diff=909"/>
		<updated>2021-09-23T17:48:17Z</updated>

		<summary type="html">&lt;p&gt;Skl: Skl uploaded a new version of File:Burrows Wheeler zyklische Verschiebung .png&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Skl</name></author>
	</entry>
</feed>