2.Transkriptom RNA Seq 1
Aufgabe 1: Definitionen
Reads: Sequenzierte cDNA-Fragmente, die assembliert werden müssen (also dem Referenzgenom zugeordnet).
Assembly: Bioinformatisches Verfahren, bei dem die reads angeglichen (alignt) und verbunden werden. Dies kann entweder mit Referenzgenom oder ohne (de novo) geschehen. Hierbei werden überlappende reads zu Contiqs und anschließend zu Scaffolds zusammengesetzt.
Contiq: Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird.
Coverage: Summe an reads, die ein bestimmtes Nukleotid in der Sequenz beinhalten. Oder anders ausgedrückt: Die Anzahl der reads an einer beliebigen Stelle der Sequenz, die diese abdecken. Für einen Sequenzabschnit wird es über folgende Formel berechnet:
[math]\displaystyle{ C= \frac{N*L}{G} }[/math]
N - die Anzahl der Reads
L - die durchschnittliche Länge der reads
G - die Länge des Referenzgenoms
library: Pool von DNA-Fragmenten, der aus einer Probe generiert wurde
NGS: Next Generation Sequencing, Sammelbegriff für neuartige Sequenziermethoden, die einen höhere Durchsatz besitzen als die klassische Sangermethode. Dies ist möglich, da die Sequenzierungen parallel durchgeführt werden können.
Scaffold: Einheit von mehreren Contigs, bei denen die Entfernung (Länge in Basenpaaren) zwischen den Contiqs bekannt ist. Die Sequenz zwischen den Contiqs kann dabei unbekannt sein.
RNASeq: Sequenzierung des gesamten Transkriptoms einer Zelle (meist mit NGS Methoden). Dabei wird die RNA zunächst durch reverse Transkriptase in cDNA umgeschrieben.
Aufgabe 2: RNASeq vs. Microarray
a. Vergleich von Microarray und RNASeq
Erläutern Sie die Gemeinsamkeiten und Unterschiede von RNASeq und Microarray.
Eigenschaft | Microarray | RNASeq | |
---|---|---|---|
Kosten | in etwa gleich (Microarrays sind unter Umständen etwas billiger) | ||
Methode | 1. Transcriptomics
2. Analyse von RNA 3. Vorgang bis zur Herstellung der cDNA gleich | ||
Prinzip | Hybridisierung | Hochdurchsatz Sequenzierung | |
Auflösung | einige bis 100 bp | Einzelbase | |
Hintergrundrauschen | hoch | gering | |
Dynamischer Bereich | bis 100fach | > 8000fach | |
Isoformen | teilweise | ja | |
Benötigte RNA-Menge | hoch | gering |
Isoformen: Varianten eines Gens/RNA/Proteins - Bspw. fehlt beim Splicen ein Exon --> andere Funktion
Zum Nachlesen: https://www.chemie.de/lexikon/Isoform.html
b. Funktionsweise von Microarray und RNASeq
Auf welchem Prinzip beruht die RNA-Sequenzierung, auf welchem das Microarray?
Erklären Sie kurz die Funktionsweise beider Methoden.
Funktionsweise RNASeq:
→ Sequenz-basierte Methode
1. Isolierung der Zellen aus den zu vergleichenden Zelllinien.
2. Isolierung der mRNA.
3. Herstellung der cDNA mit Hilfe der reversen Transkriptase.
4. Fragmentierung der cDNA, Ligation an Adapter und Amplifikation mit PCR.
5. Sequenzierung der Fragmente.
6. Vergleich der erhaltenen Sequenzen mit dem Referenzgenom, zur Analyse der Expression.
Funktionsweise Microarray:
→ Hybridisierungs-basierte Methode
Schritt 1 bis 3, siehe RNASeq.
4. Markierung der zu vergleichenden cDNAs mit unterschiedlichen Fluoreszenzfarbstoffen.
5. Hybridisierung der markierten DNA auf Microarray mit bekannten Transkript-Proben (komplementär).
6. Bei erfolgreicher Hybridisierung entsteht Fluoreszent, die detektiert wird. Durch die unterschiedliche Markierung (Farbe), die Position auf dem Chip und die Stärke der Fluoreszenz kann die Expression der zu vergleichenden Zellen analysiert werden.
Aufgabe 3: Illumina Sequenzierung
a. Die Anwendung von NGS hat in den letzten Jahren stark zugenommen, Welche möglichen Einsatzgebiete gibt es?
NGS kann für Zwecke wie RNA Sequenzierung (RNAseq, Exome sequencing) und DNA Sequenzierung (Whole genome equencing, methylation sequencing, Protein-DNA Interaktionssequenzierung) verwendet werden
b. Welche Generationen der Sequenzierung werden unterschieden?
1st Gen.: Sangersequenzierung
2nd Gen.: Illumina, SOLiD, Ion torrent, Pyrosequencing
3rd Gen.: Nanopore, SMRT seq
d. Wie ist das Dateiformat FastQ aufgebaut?
1. Zeile: @ gefolgt von einem Sequenzidentifier,
2. Zeile ist die Sequenz in Buchstabencode
3. Zeile beginnt mit einem + und kann weitere Deskriptoren beinhalten
4. Zeile kodiert die Qualität der Sequenz in Zeile 4 in ASCII
Beispiel:
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
Aufgabe 4
a. Wozu wird ein Assembly in Hinblick auf NGS benötigt?
Da die NGS alle auf Shotgunsequenzierung beruhen, werden nur kleine Fragmente sequenziert. Eine Assembly ist nötig um aus den gewonnen Sequenzierdaten tatsächlich nutzbare Daten über das Genom/Transkriptom zu gewinnen, indem die Sequenzen der ursprünglichen DNA/mRNA wieder zusammengesetzt werden.
b. Welche grundsätzlichen Assemblierungsmethoden gibt es?
de-novo assembly wird genutzt um ohne Template die reads zu verknüpfen.
mapping assembly wird genutzt wenn man eine existierende Sequenz (Referenzgenom) hat, an die man die reads anlegen und vergleichen kann.
c. Beschreibe den Ablauf eines Assemblys. Welche Probleme können auftreten?
1. Durch die Sequenzierung werden reads erzeugt.
2. Die reads werden anhand übereinstimmender Sequenzen zu durchgehenden contiqs zusammengefügt.
3. Diese contiqs werden zu Scaffolds zusammengefügt, die jedoch noch unbekannte Sequenzabschnitte enthalten können.
Die Menge der reads, die in einen Zusammenhang gebracht werden müssen, können dabei ein
Problem darstellen.
Genauso Mutationen (Insertionen, Deletionen) in der Basenabfolge, sowie
technische Fehler bei der
Sequenzierung (schlechtes Qualitätslevel der Basen) bzw. beim verwendeten Algorithmus.
d. Was ist ein Alignment und wofür wird es verwendet?
Ein Alignment ist eine Methode zum Vergleich zweier oder mehrerer Nukleotid-, oder Aminosäuresequenzen in linearer Abfolge.
Alignments werden z.B. dazu verwendet reads aneinander auszurichten, um ähnliche/identische Abschnitte zu finden, sodass diese zu contiqs zusammengefügt werden können.