2.Transkriptom RNA Seq 1: Difference between revisions

From Bioinformatik Wiki
No edit summary
 
(9 intermediate revisions by 3 users not shown)
Line 1: Line 1:
== Aufgabe 1: Definitionen ==
== Aufgabe 1: Definitionen ==
''' RNASeq''': Sequenzierung des gesamten Transkriptoms einer Zelle durch NGS-Methoden. Dazu muss die mRNA durch Reverse Transkriptase in cDNA umgeschrieben werden.


'''Reads''': Sequenzierte cDNA-Fragmente, die assembliert werden müssen (also dem Referenzgenom zugeordnet).  
'''Reads''': Aus der RNA-Seq. erhaltene Fragmente sequenzierter RNA. Diese können anschließend einem Refernezgenom zugeordnet werden.


'''Assembly''': Bioinformatisches Verfahren, bei dem die reads angeglichen (alignt) und verbunden werden. Dies kann entweder mit Referenzgenom oder ohne (''de novo'') geschehen. Hierbei werden überlappende reads zu Contiqs und anschließend zu Scaffolds zusammengesetzt.
'''Contiq''': Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken.  


'''Contiq''': Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird.
'''Scaffold''': Einheit von mehreren Contiqs und Lücken (auch Supercontiqs genannt), die die Reihenfolge, Orientierung und Größe der Lücken zwischen den Contiqs definiert.
 
'''Assembly''': Bioinformatisches Verfahren, bei dem überlappende reads erst zu Contings und anschließend zu Scaffolds zusammengesetzt werden.  


[[File:PET contig scaffold.png|thumb|reads, contigs und Scaffold]]
[[File:PET contig scaffold.png|thumb|reads, contigs und Scaffold]]


'''Coverage''': Summe an reads, die ein bestimmtes Nukleotid in der Sequenz beinhalten. Oder anders ausgedrückt: Die Anzahl der reads an einer beliebigen Stelle der Sequenz, die diese abdecken. Für einen Sequenzabschnit wird es über folgende Formel berechnet:  
'''Coverage''': Die Anzahl der reads an einer beliebigen Stelle der Sequenz, die diese abdecken. Für einen Sequenzabschnitt wird es über folgende Formel berechnet:  


<math> C= \frac{N*L}{G} </math>
<math> C= \frac{N*L}{G} </math>
Line 19: Line 22:
G - die Länge des Referenzgenoms
G - die Länge des Referenzgenoms


'''library''': Pool von DNA-Fragmenten, der aus einer Probe generiert wurde
'''Library''': Pool von DNA-Fragmenten, der aus einer Probe generiert wurde


'''NGS''': '''N'''ext '''G'''eneration '''S'''equencing, Sammelbegriff für neuartige Sequenziermethoden, die einen höhere Durchsatz besitzen als die klassische Sangermethode. Dies ist möglich, da die Sequenzierungen parallel durchgeführt werden können.
'''NGS''': '''N'''ext '''G'''eneration '''S'''equencing, Sammelbegriff für neuartige Sequenziermethoden, die einen höhere Durchsatz besitzen als die klassische Sangermethode. Dies ist möglich, da die Sequenzierungen parallel durchgeführt werden können.


'''Scaffold''': Einheit von mehreren Contigs, bei denen die Entfernung (Länge in Basenpaaren) zwischen den Contiqs bekannt ist. Die Sequenz zwischen den Contiqs kann dabei unbekannt sein.
== Aufgabe 2: Illumina Sequenzierung ==
 
===== a. Die Anwendung von NGS hat in den letzten Jahren stark zugenommen, welche möglichen Einsatzgebiete gibt es? Was wird in ihnen untersucht? =====
 
* RNA Sequenzierung(Transcriptomics). In Transcriptomics wird die Basenabfolge der RNA, exprimierte Gene und die Expressionslevel unter verschiedenen Bedingungen untersucht.
* DNA Sequenzierung(Genomics). In Genomics wird die Basenabfolge und Aufbau des Genoms, und die Identifizierung von möglichen Genen untersucht.
 
===== b. Was ist das FASTQ-Dateiformat und wie ist es aufgebaut?  =====
* Textbasierte Methode zur Speicherung einer Sequenz (DNA/RNA). Dabei wird auch die Qualität der sequenzierten Base jeweils in einem ASCII Symbol vermerkt. Genereller Aufbau:
 
1. Zeile: @ gefolgt von einem Sequenzidentifier,
 
2. Zeile ist die Sequenz in Buchstabencode
 
3. Zeile beginnt mit einem + und kann weitere Deskriptoren beinhalten
 
4. Zeile kodiert die Qualität der Sequenz in Zeile 4 in ASCII
 
Beispiel:
<pre>
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
</pre>
 
 
===== c. Welche Generationen der Sequenzierung werden unterschieden? =====
 
1st Gen.: Sangersequenzierung
 
2nd Gen.: Illumina, SOLiD, Ion torrent, Pyrosequencing
 
3rd Gen.: Nanopore, SMRT seq
 
Vor und Nachteile?
 
{| class="wikitable"
|+ style="padding-bottom:1em"| Vor & Nachteile der Generationen
|- class="hintergrundfarbe6"
! style="width:20%"| Generationen !! style="width:30%"| Vorteile !! style="width:30%"| Nachteile
|-
| 1. Generation || Hohe Genauigkeit || Langsam, Teuer
|-
| 2. Generation || Schnell ||Threshold muss überschritten werden
|-
| 3. Generation || Günstig, vereinfachte Durchführung ||Hohe Fehlerate
|-
|}
===== d. Die Genom-Sequenzierung und die RNA-Sequenzierung kann mit Hilfe von Illumina durchgeführt werden. Was sind die Gemeinsamkeiten und Unterschiede? =====
{| class="wikitable"
|+ style="padding-bottom:1em"| DNA & RNA mit Illumina
|- class="hintergrundfarbe6"
!  Generationen !!  Genom-Sequenzierung!!RNA-Sequenzierung
|-
| Omic's Bereich || Genomic || Transcriptomic
|-
| Was wird dem Sequenzierer übergeben? || DNA || cDNA aus library
|-
| Was wird untersucht? || Sequenz, Aufbau des Genoms, Identifizierung von möglichen Genen||Sequenz, exprimierte Gene, Expressionslevel
|-
|}


''' RNASeq''': Sequenzierung des gesamten Transkriptoms einer Zelle (meist mit NGS Methoden). Dabei wird die RNA zunächst durch reverse Transkriptase in cDNA umgeschrieben.


== Aufgabe 2: RNASeq vs. Microarray ==
== Aufgabe 3: RNASeq vs. Microarray ==
=== a. Vergleich von Microarray und RNASeq ===  
=== a. Vergleich von Microarray und RNASeq ===  
Erläutern Sie die Gemeinsamkeiten und Unterschiede von [[RNAseq|RNASeq]] und [[Microarrays|Microarray]].<br>
Erläutern Sie die Gemeinsamkeiten und Unterschiede von [[RNAseq|RNASeq]] und [[Microarrays|Microarray]].<br>
Line 35: Line 98:
! style="width:20%"| Eigenschaft !! style="width:30%"| Microarray !! style="width:30%"| RNASeq  
! style="width:20%"| Eigenschaft !! style="width:30%"| Microarray !! style="width:30%"| RNASeq  
|-
|-
| Kosten  ||colspan="3" style="text-align:center"| in etwa gleich (Microarrays sind unter Umständen etwas billiger)
| Kosten  ||colspan="2" style="text-align:center"| in etwa gleich (Microarrays sind unter Umständen etwas billiger)
|-
|-
| Methode  ||colspan="3" style="text-align:center"| 1. Transcriptomics  
| rowspan="3"| Methode  ||colspan="2" style="text-align:center"| Transcriptomics  
2. Analyse von RNA <br>  
<tr> <td colspan="2" style="text-align:center"> Analyse von RNA </td colspan="2">
 
<tr> <td colspan="2" style="text-align:center"> Vorgang bis zur Herstellung der cDNA gleich </td>
3. Vorgang bis zur Herstellung der cDNA gleich
|-
|-
| Prinzip || Hybridisierung || Hochdurchsatz Sequenzierung
| Prinzip || Hybridisierung || Hochdurchsatz Sequenzierung
Line 90: Line 152:
'''Microarray''': Oft wird vor allem die relative Änderung der Genexpression bekannter Gene untersucht. Hierbei werden bekannte Gene auf einem DNA-Chip als ssDNA (single strained) an eine Trägermembran gebunden. Die zu untersuchende mRNA wird ebenfalls mittel reverser Transkriptase in cDNA umgewandelt (da diese stabiler ist) und an Fluorochrome gebunden. Nachdem die Probe nun auf den fertigen DNA-Chip aufgetragen wird, kann ein Laser die Hybridisierung der Probe mit dem auf dem Chip vorhandenen DNA-Strang nachweisen. Durch die Verwendung unterschiedlicher Fluorochrome kann diese Information noch um weitere Ebenen erweitert werden (Bspw. Vergleich unterschiedlicher mRNA Isolate aus verschiedenen Zellen und/oder Zeitpunkten).
'''Microarray''': Oft wird vor allem die relative Änderung der Genexpression bekannter Gene untersucht. Hierbei werden bekannte Gene auf einem DNA-Chip als ssDNA (single strained) an eine Trägermembran gebunden. Die zu untersuchende mRNA wird ebenfalls mittel reverser Transkriptase in cDNA umgewandelt (da diese stabiler ist) und an Fluorochrome gebunden. Nachdem die Probe nun auf den fertigen DNA-Chip aufgetragen wird, kann ein Laser die Hybridisierung der Probe mit dem auf dem Chip vorhandenen DNA-Strang nachweisen. Durch die Verwendung unterschiedlicher Fluorochrome kann diese Information noch um weitere Ebenen erweitert werden (Bspw. Vergleich unterschiedlicher mRNA Isolate aus verschiedenen Zellen und/oder Zeitpunkten).


== Aufgabe 3: Illumina Sequenzierung ==
===== a. Die Anwendung von NGS hat in den letzten Jahren stark zugenommen, Welche möglichen Einsatzgebiete gibt es? =====
NGS kann für Zwecke wie RNA Sequenzierung (RNAseq, Exome sequencing) und DNA Sequenzierung (Whole genome equencing, methylation sequencing, Protein-DNA Interaktionssequenzierung) verwendet werden.
RNA Seq - Transcriptimics
DNA Seq - Genomics
===== b. Welche Generationen der Sequenzierung werden unterschieden? =====
1st Gen.: Sangersequenzierung
2nd Gen.: Illumina, SOLiD, Ion torrent, Pyrosequencing
3rd Gen.: Nanopore, SMRT seq


Vor und Nachteile?
== Aufgabe 4: Alignement und Assembly ==
 
{| class="wikitable"
|+ style="padding-bottom:1em"| Vor & Nachteile der Generationen
|- class="hintergrundfarbe6"
! style="width:20%"| Generationen !! style="width:30%"| Vorteile !! style="width:30%"| Nachteile
|-
| 1. Generation || Hohe Genauigkeit || Langsam, Teuer
|-
| 2. Generation || Schnell ||Threshold muss überschritten werden
|-
| 3. Generation || Günstig, vereinfachte Durchführung ||Hohe Fehlerate
|-
|}
===== d. Die Genom-Sequenzierung und die RNA-Sequenzierung kann mit Hilfe von Illumina durchgeführt werden. Was sind die Gemeinsamkeiten und Unterschiede? =====
{| class="wikitable"
|+ style="padding-bottom:1em"| DNA & RNA mit Illumina
|- class="hintergrundfarbe6"
! style="width:20%"| Generationen !! style="width:30%"| Unterschiede
|-
| Omic's Bereich || Genomic || Transcriptomic
|-
| Was wird dem Sequenzierer übergeben? || DNA || cDNA aus library
|-
| Was wird untersucht? || Sequenz, Aufbau des Genoms, Identifizierung von möglichen Genen||Sequenz, exprimierte Gene, Expressionslevel
|-
|}
 
===== e. Dateiformat FastQ =====
1. Zeile: @ gefolgt von einem Sequenzidentifier,
 
2. Zeile ist die Sequenz in Buchstabencode
 
3. Zeile beginnt mit einem + und kann weitere Deskriptoren beinhalten
 
4. Zeile kodiert die Qualität der Sequenz in Zeile 4 in ASCII
 
Beispiel:
<pre>
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
</pre>
 
'''FASTQ''': Textbasierte Methode zur Speicherung einer Nukleotidsequenz. Als Zusatzinformation/Metadata wird die Qualität jeder Base in ASCII vermerkt.
 
== Aufgabe 4 ==


===== a. Wozu wird ein Assembly in Hinblick auf NGS benötigt? =====
===== a. Wozu wird ein Assembly in Hinblick auf NGS benötigt? =====


Da die NGS alle auf Shotgunsequenzierung beruhen, werden nur kleine
Da die NGS alle auf Shotgunsequenzierung beruhen, werden nur kleine
Fragmente sequenziert. Diese Rohdaten sind vollkommen ungeordnet und in keiner Weise miteinander in Bezug. Eine Assembly ist nötig um aus den gewonnen Sequenzierdaten tatsächlich nutzbare Daten über das Genom/Transkriptom zu gewinnen, indem die Sequenzen der ursprünglichen DNA/mRNA wieder
Fragmente sequenziert. Diese Rohdaten sind vollkommen ungeordnet und in keiner Weise miteinander in Bezug. Eine Assembly ist nötig um aus den gewonnen Sequenzierdaten tatsächlich nutzbare Daten über das Genom/Transkriptom zu gewinnen. Durch das Assembly wird die eigentliche Sequenz aus den erhaltenen reads rekonstruiert und zusammengesetzt.
zusammengesetzt werden.


===== b. Welche grundsätzlichen Assemblierungsmethoden gibt es? =====
===== b. Welche grundsätzlichen Assemblierungsmethoden gibt es? =====
De-novo assembly wird genutzt um ohne Template die reads zu verknüpfen. Das Genom ist dabei meist noch unbekannt und deswegen kann es kein Referenzgenom geben, das als Template dienen kann.
* De-novo:<br>
Dabei werden paired-end (short insert reads) und mate-pair reads (long-insert reads) kombiniert.
** kein Template vorhanden, da Genom meist noch unbekannt ist. Deswegen kein Referenzgenom, das als Template dienen kann.
** dabei werden paired-end (short insert reads) und mate-pair reads (long-insert reads) kombiniert. Die Assemblierung läuft über Graphen (z.B. de Bruijn-Graph/ Eulersche Pfade).


Mapping assembly wird genutzt wenn man eine existierende Sequenz (Referenzgenom) hat, an
* Mithilfe eines Referenzgenoms:<br>
die man die reads anlegen und vergleichen kann (alignen). Dabei werden paired-end Sequenzierungen genutzt.
** existierendes Referenzgenom
** Assemblierung der Probe an ein bekanntes Referenzgenom mithilfe von Alignments
** dabei werden paired-end Sequenzierungen genutzt


===== c. Beschreibe den Ablauf eines Assemblys. Welche Probleme können auftreten? =====
===== c. Beschreibe den Ablauf eines Assemblys. Welche Probleme können auftreten? =====
1. Durch die Sequenzierung werden reads erzeugt.<br>
1. Durch die Sequenzierung werden reads erzeugt.<br>
2. Die reads werden anhand übereinstimmender Sequenzen zu durchgehenden Contiqs zusammengefügt.<br>
2. Aus der Sequenzierung erhaltene reads werden durch überlappende Bereiche lückenlos zu Contiqs zusammengesetzt.<br>
3. Diese Contiqs werden zu Scaffolds zusammengefügt, die jedoch noch unbekannte Sequenzabschnitte enthalten können.<br>
3. Die Orientierung der Contiqs wird bestimmt und zu Scaffolds zusammengesetzt; durch die Art der Sequenzierung, z.B. paired-end Sequenzierung, ergeben sich charakteristische Längen zwischen den reads (Lücken), die zusammen mit den Contiqs die Scaffolds bilden.<br>
<br>
<br>
<br>
<br>
Die Menge der reads, die in einen Zusammenhang gebracht werden müssen, können dabei ein
'''Probleme:'''
Problem darstellen.<br>
*Geringe Abdeckung durch reads
Genauso Mutationen (Insertionen, Deletionen) in der Basenabfolge, sowie
*Sequenzlänge der reads ist zu kurz
technische Fehler bei der<br>
*Fehlende durchgängige Orientierung der Contiqs
Sequenzierung (schlechtes Qualitätslevel der Basen) bzw. beim verwendeten Algorithmus.
*Schlechte read-Qualität, fehlerhafte read Paare


===== d. Was ist ein Alignment und wofür wird es verwendet? =====
===== d. Was ist ein Alignment und wofür wird es verwendet? =====
Ein Alignment ist eine Methode zum Vergleich zweier oder mehrerer Nukleotid-, oder Aminosäuresequenzen in linearer Abfolge.<br>
* Alignment = optimales „Aneinander ausrichten“ von Sequenzen, sodass z.B. reads aus einer Sequen- zierung an ein Referenzgenom ausgerichtet werden können
Alignments werden z.B. dazu verwendet reads aneinander auszurichten, um ähnliche/identische Abschnitte zu finden, sodass diese zu contiqs zusammengefügt werden können.<br>
* Anwendung: Sequenzvergleiche, phylogenetische Untersuchungen
 


Anwendungen allgemein: Sequenzvergleiche, phylogenetische Untersuchungen
Allgemeine Anwendung: Sequenzvergleiche, phylogenetische Untersuchungen

Latest revision as of 15:13, 23 September 2021

Aufgabe 1: Definitionen

RNASeq: Sequenzierung des gesamten Transkriptoms einer Zelle durch NGS-Methoden. Dazu muss die mRNA durch Reverse Transkriptase in cDNA umgeschrieben werden.

Reads: Aus der RNA-Seq. erhaltene Fragmente sequenzierter RNA. Diese können anschließend einem Refernezgenom zugeordnet werden.

Contiq: Zusammenhängender Abschnitt einer genomischen Sequenz, die aus überlappenden reads gebildet wird. Zwischen ihnen befinden sich noch Lücken.

Scaffold: Einheit von mehreren Contiqs und Lücken (auch Supercontiqs genannt), die die Reihenfolge, Orientierung und Größe der Lücken zwischen den Contiqs definiert.

Assembly: Bioinformatisches Verfahren, bei dem überlappende reads erst zu Contings und anschließend zu Scaffolds zusammengesetzt werden.

File:PET contig scaffold.png
reads, contigs und Scaffold

Coverage: Die Anzahl der reads an einer beliebigen Stelle der Sequenz, die diese abdecken. Für einen Sequenzabschnitt wird es über folgende Formel berechnet:

[math]\displaystyle{ C= \frac{N*L}{G} }[/math]

N - die Anzahl der Reads

L - die durchschnittliche Länge der reads

G - die Länge des Referenzgenoms

Library: Pool von DNA-Fragmenten, der aus einer Probe generiert wurde

NGS: Next Generation Sequencing, Sammelbegriff für neuartige Sequenziermethoden, die einen höhere Durchsatz besitzen als die klassische Sangermethode. Dies ist möglich, da die Sequenzierungen parallel durchgeführt werden können.

Aufgabe 2: Illumina Sequenzierung

a. Die Anwendung von NGS hat in den letzten Jahren stark zugenommen, welche möglichen Einsatzgebiete gibt es? Was wird in ihnen untersucht?
  • RNA Sequenzierung(Transcriptomics). In Transcriptomics wird die Basenabfolge der RNA, exprimierte Gene und die Expressionslevel unter verschiedenen Bedingungen untersucht.
  • DNA Sequenzierung(Genomics). In Genomics wird die Basenabfolge und Aufbau des Genoms, und die Identifizierung von möglichen Genen untersucht.
b. Was ist das FASTQ-Dateiformat und wie ist es aufgebaut?
  • Textbasierte Methode zur Speicherung einer Sequenz (DNA/RNA). Dabei wird auch die Qualität der sequenzierten Base jeweils in einem ASCII Symbol vermerkt. Genereller Aufbau:

1. Zeile: @ gefolgt von einem Sequenzidentifier,

2. Zeile ist die Sequenz in Buchstabencode

3. Zeile beginnt mit einem + und kann weitere Deskriptoren beinhalten

4. Zeile kodiert die Qualität der Sequenz in Zeile 4 in ASCII

Beispiel:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65


c. Welche Generationen der Sequenzierung werden unterschieden?

1st Gen.: Sangersequenzierung

2nd Gen.: Illumina, SOLiD, Ion torrent, Pyrosequencing

3rd Gen.: Nanopore, SMRT seq

Vor und Nachteile?

Vor & Nachteile der Generationen
Generationen Vorteile Nachteile
1. Generation Hohe Genauigkeit Langsam, Teuer
2. Generation Schnell Threshold muss überschritten werden
3. Generation Günstig, vereinfachte Durchführung Hohe Fehlerate
d. Die Genom-Sequenzierung und die RNA-Sequenzierung kann mit Hilfe von Illumina durchgeführt werden. Was sind die Gemeinsamkeiten und Unterschiede?
DNA & RNA mit Illumina
Generationen Genom-Sequenzierung RNA-Sequenzierung
Omic's Bereich Genomic Transcriptomic
Was wird dem Sequenzierer übergeben? DNA cDNA aus library
Was wird untersucht? Sequenz, Aufbau des Genoms, Identifizierung von möglichen Genen Sequenz, exprimierte Gene, Expressionslevel


Aufgabe 3: RNASeq vs. Microarray

a. Vergleich von Microarray und RNASeq

Erläutern Sie die Gemeinsamkeiten und Unterschiede von RNASeq und Microarray.

Vergleich von Microarray und RNASeq
Eigenschaft Microarray RNASeq
Kosten in etwa gleich (Microarrays sind unter Umständen etwas billiger)
Methode Transcriptomics
Analyse von RNA
Vorgang bis zur Herstellung der cDNA gleich
Prinzip Hybridisierung Hochdurchsatz Sequenzierung
Auflösung einige bis 100 bp Einzelbase
Hintergrundrauschen hoch gering
Dynamischer Bereich bis 100fach > 8000fach
Isoformen teilweise ja
Benötigte RNA-Menge hoch gering

Isoformen: Varianten eines Gens/RNA/Proteins - Bspw. fehlt beim Splicen ein Exon --> andere Funktion

Zum Nachlesen: https://www.chemie.de/lexikon/Isoform.html

Dynamischer Bereich: Bereich, indem die Genexpression unterschiedlicher Proben innerhalb eines Versuches gemessen werden kann. Beim Microarray ist dies beispielsweise limitiert durch das Hintergrundrauschen einerseits und die Signalsättigung andererseits. Deswegen ist der dynamische Bereich hier kleiner als bei RNASeq, die durch viele diskrete, digitale reads die Expression in einem deutlich größeren Bereich quantifizieren kann.

b. Funktionsweise von Microarray und RNASeq

Auf welchem Prinzip beruht die RNA-Sequenzierung, auf welchem das Microarray?
Erklären Sie kurz die Funktionsweise beider Methoden.

Funktionsweise RNASeq:
→ Sequenz-basierte Methode
1. Isolierung der Zellen aus den zu vergleichenden Zelllinien.
2. Isolierung der mRNA.
3. Herstellung der cDNA mit Hilfe der reversen Transkriptase.
4. Fragmentierung der cDNA, Ligation an Adapter und Amplifikation mit PCR.
5. Sequenzierung der Fragmente.
6. Vergleich der erhaltenen Sequenzen mit dem Referenzgenom, zur Analyse der Expression.

Funktionsweise Microarray:
→ Hybridisierungs-basierte Methode
Schritt 1 bis 3, siehe RNASeq.
4. Markierung der zu vergleichenden cDNAs mit unterschiedlichen Fluoreszenzfarbstoffen.
5. Hybridisierung der markierten DNA auf Microarray mit bekannten Transkript-Proben (komplementär).
6. Bei erfolgreicher Hybridisierung entsteht Fluoreszent, die detektiert wird. Durch die unterschiedliche Markierung (Farbe), die Position auf dem Chip und die Stärke der Fluoreszenz kann die Expression der zu vergleichenden Zellen analysiert werden.


Alternativer Erklärungsansatz in Textform:

RNASeq: Zunächst wird eine Library Präparation vorgenommen. Hierber wird die genomische RNA fragmentiert und durch reverse Transkriptase in cDNA umgewandelt. Nach der Ligation von Adaptern werden die neu entstandenen Fragmente mittels PCR amplifiziert. Für die Sequenzierung werden fluoreszenzmarkierte Nucleotide verwendet, welche in jedem Zyklus an die cDNA binden, ein Signal senden, und anschließend wieder entfernt werden. So kann durch Hochdurchsatz-Sequenzierung nach und nach die neu entstandenden Fragmente parallel sequenziert werden. Diese Fragmente müssen dann bioinformatisch prozessiert werden, um die ursprüngliche Sequenz valide zusammensetzen zu können (Alignment).

Microarray: Oft wird vor allem die relative Änderung der Genexpression bekannter Gene untersucht. Hierbei werden bekannte Gene auf einem DNA-Chip als ssDNA (single strained) an eine Trägermembran gebunden. Die zu untersuchende mRNA wird ebenfalls mittel reverser Transkriptase in cDNA umgewandelt (da diese stabiler ist) und an Fluorochrome gebunden. Nachdem die Probe nun auf den fertigen DNA-Chip aufgetragen wird, kann ein Laser die Hybridisierung der Probe mit dem auf dem Chip vorhandenen DNA-Strang nachweisen. Durch die Verwendung unterschiedlicher Fluorochrome kann diese Information noch um weitere Ebenen erweitert werden (Bspw. Vergleich unterschiedlicher mRNA Isolate aus verschiedenen Zellen und/oder Zeitpunkten).


Aufgabe 4: Alignement und Assembly

a. Wozu wird ein Assembly in Hinblick auf NGS benötigt?

Da die NGS alle auf Shotgunsequenzierung beruhen, werden nur kleine Fragmente sequenziert. Diese Rohdaten sind vollkommen ungeordnet und in keiner Weise miteinander in Bezug. Eine Assembly ist nötig um aus den gewonnen Sequenzierdaten tatsächlich nutzbare Daten über das Genom/Transkriptom zu gewinnen. Durch das Assembly wird die eigentliche Sequenz aus den erhaltenen reads rekonstruiert und zusammengesetzt.

b. Welche grundsätzlichen Assemblierungsmethoden gibt es?
  • De-novo:
    • kein Template vorhanden, da Genom meist noch unbekannt ist. Deswegen kein Referenzgenom, das als Template dienen kann.
    • dabei werden paired-end (short insert reads) und mate-pair reads (long-insert reads) kombiniert. Die Assemblierung läuft über Graphen (z.B. de Bruijn-Graph/ Eulersche Pfade).
  • Mithilfe eines Referenzgenoms:
    • existierendes Referenzgenom
    • Assemblierung der Probe an ein bekanntes Referenzgenom mithilfe von Alignments
    • dabei werden paired-end Sequenzierungen genutzt
c. Beschreibe den Ablauf eines Assemblys. Welche Probleme können auftreten?

1. Durch die Sequenzierung werden reads erzeugt.
2. Aus der Sequenzierung erhaltene reads werden durch überlappende Bereiche lückenlos zu Contiqs zusammengesetzt.
3. Die Orientierung der Contiqs wird bestimmt und zu Scaffolds zusammengesetzt; durch die Art der Sequenzierung, z.B. paired-end Sequenzierung, ergeben sich charakteristische Längen zwischen den reads (Lücken), die zusammen mit den Contiqs die Scaffolds bilden.


Probleme:

  • Geringe Abdeckung durch reads
  • Sequenzlänge der reads ist zu kurz
  • Fehlende durchgängige Orientierung der Contiqs
  • Schlechte read-Qualität, fehlerhafte read Paare
d. Was ist ein Alignment und wofür wird es verwendet?
  • Alignment = optimales „Aneinander ausrichten“ von Sequenzen, sodass z.B. reads aus einer Sequen- zierung an ein Referenzgenom ausgerichtet werden können
  • Anwendung: Sequenzvergleiche, phylogenetische Untersuchungen


Allgemeine Anwendung: Sequenzvergleiche, phylogenetische Untersuchungen