5.Transkriptom RNA Seq 2: Difference between revisions

From Bioinformatik Wiki
No edit summary
 
(4 intermediate revisions by 2 users not shown)
Line 45: Line 45:


SAM = '''S'''equence Alignment Map
SAM = '''S'''equence Alignment Map
BAM = '''B'''inary Alignment Map
BAM = '''B'''inary Alignment Map


Line 51: Line 52:
a. Beschreibe den experimentellen Ablauf der mRNA-Sequenzierung.  
a. Beschreibe den experimentellen Ablauf der mRNA-Sequenzierung.  


Standardmäßig werden die Zellen aufgeschlossen, die mRNA extrahiert, aufgereinigt,
Standardmäßig werden die Zellen aufgeschlossen, die '''mRNA extrahiert''', aufgereinigt,
in cDNA umbeschrieben, mit Adaptern getaggt, PCR, fragmentiert und dann mithilfe
in '''cDNA umbeschrieben''', mit Adaptern getaggt, PCR, fragmentiert ('''library preparation''') und dann mithilfe '''NGS sequenziert'''. Anschließen müssen die Daten noch '''prozessiert''' und '''alignt''' werden.
NGS sequenziert.
 
Eine detaillierte Beschreibung wäre:


1. Zellaufschluss: kann mit verschieden Möglichkeiten erreicht werden und je
1. Zellaufschluss: Dieser kann mit verschieden Möglichkeiten erreicht werden und je nachdem, ob man tierische, pflanzliche oder bakterielle Zellen hat, ist der Prozess auch unterschiedlich. Viele Methoden wie Chemolyse, alkalische Lyse, Sonifikation und andere können verwendet werden.
nachdem ob man tierische, pflanzliche oder bakterielle Zellen hat ist der
Prozess auch unterschiedlich. Man kann Methoden wie Chemolyse,
alkalische Lyse, Sonifikation und andere verwenden


2. Zur mRNA-Extraktion werden normalerweise Kits verwendet. Diese
2. Zur mRNA-Extraktion werden normalerweise Kits verwendet. Diese basieren auf unterschiedlichen Methoden wie magnetic beads, Phasentrennung (mit Chloroform und Phenol) oder via Präzipitation mit
basieren auf unterschiedlichen Methoden wie magnetic beads,
Ethanol.
Phasentrennung (mit Chloroform und Phenol) oder via Präzipitation mit
Ethanol


3. Aufreinigung wird meistens über waschen mit Isopropanol gewährleistet
3. Aufreinigung wird meistens über Waschen mit Isopropanol gewährleistet.


4. Die mRNA wird in cDNA umgeschrieben indem man reverse Transkriptase
4. Die mRNA wird in cDNA umgeschrieben, indem man reverse Transkriptase hinzugibt. Um den mRNA-Strang in cDNA umzuschreiben, muss der cDNA/RNA Hybrid wieder in Einzelsträngen getrennt werden. Bei der zweiten Synthese wird dann dUTP anstatt dTTP verwendet, damit man die Stränge voneinander unterscheiden kann. (forward/reverse) Anschließend werden die 3‘Enden adenyliert, um Ligation zu vermeiden.
hinzugibt. Um den mRNA-Strand in cDNA umzuschreiben muss der
cDNA/RNA Hybrid zwischendurch einsträngig gemacht werden. Beim
zweiten Stang wird dann dUTP anstatt dTTP verwendet, damit man die
Stänge voneinander unterscheiden kann. Anschließend werden die 3‘
Enden adenyliert um Ligation zu vermeiden.


5. Nun werden die Adapter an den mRNA-komplimentäre Strang ligiert
5. Nun werden die Adapter an den mRNA-komplementären Strang ligiert.


6. In diesem Schritt werden alle cDNA Moleküle mit Adaptern amplifiziert.
6. In diesem Schritt werden alle cDNA Moleküle mit Adaptern amplifiziert.(PCR) Dadurch wird gewährleistet, dass nur mRNA-komplementäre cDNA amplifiziert wird.
Dadurch wird gewährleistet, dass nur mRNA-komplimentäre cDNA
amplifiziert wird.


7. Hier wird die cDNA in viele stücke geschnitten, damit die Sequenzierung
7. Außerdem wird die cDNA in viele Stücke geschnitten, damit die Sequenzierung schneller und effektiver möglich ist.
besser und schneller vonstatten geht.  


8. NGS-Methoden wie Illumina oder Nanoporesequencing können solche
8. NGS-Methoden wie Illumina oder Nanoporesequencing können solche Sequenzabschnittte schnell sequenzieren.
Sequenzabschnittte schnell sequenzieren.


9. Die generierten Reads aus der Sequenzierung werden prozessiert. Dazu gehören unter anderem das Trimmen und Filtern um read(-Abschnitte) schlehcter Qualität zu entfernen.  
9. Die generierten Reads aus der Sequenzierung werden prozessiert. Dazu gehören unter anderem das Trimmen und Filtern um read(-Abschnitte) schlechter Qualität zu entfernen.  


10. Die prozessierten Reads werden alignt, damit sie anschließend ausgewertet werden können.
10. Die prozessierten Reads werden alignt, damit sie anschließend ausgewertet werden können.


b. Was versteht man unter der Sequenziertiefe?


Unter Sequenziertiefe versteht man die durchschnittliche Anzahl an reads pro Nukleotid der Sequenz. Eine hohe Sequenziertiefe bedeutet somit eine hohe Readanzahl im Verhältnis zum (Referenz)-Genoms.


c. Wie unterscheiden sich die Ergebnisse einer hohen und einer niedrigen Sequenziertiefe
'''b''': Was versteht man unter der Sequenziertiefe?
bei der Daten-Interpretation?  
 
Die Sequenziertiefe gibt an, wie oft ein bestimmter Abschnitt eines Genoms sequenziert wurde und bestimmt damit die Empfindlichkeit und Genauigkeit einer Sequenzierung.
 
 
<center><math> Sequenziertiefe=  \frac{\text{mapped reads * Fragmentlänge}}{\text{effective Genomgröße}}</math></center>
 
 
'''c''': Wie unterscheiden sich die Ergebnisse einer hohen und einer niedrigen Sequenziertiefe bei der Daten-Interpretation?  
 
Eine niedrige Sequenziertiefe zeigt lediglich stark exprimierte Gene an und ist statistischer weniger aussagekräftig. Eine tiefe Sequenziertiefe zeigt auch schwächer exprimierte Gene an und ist, da n größer ist, statistischer aussagekräftiger. Eine hohe Sequenziertiefe dauert natürlich länger und ist teurer, sodass sie für eine Suche nach hoch-exprimierten Gene nicht unbedingt nötig ist. (da hier ein mittlerer threshold ausreichend ist)


Eine „flache“ Sequenziertiefe zeigt lediglich stark exprimierte Gene an und ist statistischer
weniger aussagekräftig. Eine tiefe Sequenziertiefe zeigt auch schwächer exprimierte Gene an
und ist, da n größer ist, statistischer aussagekräftiger.


Aufgabe 3: Sequenzierung mit FASTQ-Format  
== Aufgabe 3: Sequenzierung mit FASTQ-Format ==


a. Ihr erhaltet Sequenzierdaten im FASTQ-Format. Die Datei hat 20 Millionen Zeilen.
'''a''': Ihr erhaltet Sequenzierdaten im FASTQ-Format. Die Datei hat 20 Millionen Zeilen.


    i) Wie viele „reads“ habt ihr erhalten? Erkläre, wieso.  
i) Wie viele „reads“ habt ihr erhalten? Erkläre, wieso.  


Wir haben 5 Mio. read erhalten, denn jeder Read nimmt insgesamt 4 Zeilen ein.
Wir haben 5 Mio. read erhalten, denn jeder read nimmt insgesamt 4 Zeilen ein.
Header, Sequence, Descriptor, Quality und 20/4=5
Header, Sequence, Descriptor, Quality und 20/4=5




    ii) Würde die Anzahl an „reads“ ausreichen, um die Expression eines schwach
ii) Würde die Anzahl an „reads“ ausreichen, um die Expression eines schwach
exprimierten Gens zu quantifizieren?  
exprimierten Gens zu quantifizieren?  


Nein, für ein schwach exprimiertes Gen sollte man ca. 100 Mio. Reads
Nein, für ein schwach exprimiertes Gen sollte man ca. 100 Mio. Reads anstreben. (da ein möglichst niedriger Threshold die größte Chance hat auch schwach exprimierte Gene zu detektieren)
haben
 
 


b. In einer hypothetischen Zellpopulation sind ausschließlich folgende mRNA-Mengen
'''b''': In einer hypothetischen Zellpopulation sind ausschließlich folgende mRNA-Mengen
(Anzahl an Molekülen) vorhanden:
(Anzahl an Molekülen) vorhanden:
Transkript A: 5000
Transkript A: 5000
Line 133: Line 126:


Falls Ihr Binomialverteilung noch einmal wiederholen wollt, empfehle ich euch diesen [https://www.frustfrei-lernen.de/mathematik/binomialverteilung.html Link].
Falls Ihr Binomialverteilung noch einmal wiederholen wollt, empfehle ich euch diesen [https://www.frustfrei-lernen.de/mathematik/binomialverteilung.html Link].
Andere mathematische Betrachtungsweise:
5000+1000+10 = 6010
Anzahl an Sequenzierungen, nach denen rein statistisch ein C vorkommt 6010 / 10 = 601
Bei jedem 601. read würde also rein statistisch ein C rauskommen. Für eine Sequenziertiefe von 10 braucht man also rein statistisch 601 * 10 = 6010. Nun greift aber natürlich wieder die oben angesprochene Binominalverteilung, da es ja nur ein statistisches Mittel ist und deswegen nicht jedes Mal zufällig so eintritt.

Latest revision as of 19:17, 31 January 2021


Aufgabe 1: mRNA und RNA-Sequenzierung allgemein

a: Was versteht man unter mRNA?

Messenger-RNA, auch mRNA, ist ein einzelsträngiges Transkript einer genomischen Sequenz. Sie entsteht während der Transkription durch differentielle Genexpression (Transcriptomics) Wird in Eukaryoten noch einmal prozessiert und gespleißt. Zu beachten ist, dass die mRNA Ribose als Zucker besitzt und nicht Desoxyribose (wie die DNA). Außerdem wird statt Thymin Uracil verwendet. Ihr Zweck ist es die Information für den Aufbau eines Proteins zu speichern und zu transportieren.


b: Wie könnte man vorgehen, um mRNA anzureichern?

Bei dieser Frage gibt es mehrere Lösungen, eine Antwort könnte so aussehen:

Man lysiert eine Zellkultur, isoliert die mRNA mit der Methode der eigenen Wahl (man könnte zum Beispiel die RNA an magnetische microbeads mit Poly-A-Tag binden lassen und dann eine Magnetfilterung durchführen). Anschließend kann man die Probe anreichern indem man die rRNA abbaut. Die mRNA kann man dann aufkonzentrieren indem man in einer Vakuumkammer Wasser der Lösung verdampfen lässt und somit die Konzentration an mRNA erhöht.

Grundsätzlich lässt sich sagen:

  • Abbau von rRNA bei Prokaryoten, da diese 90% der RNA einer Zelle ausmacht
  • Anreicherung über Poly (A) -Schwanz bei Eukaryoten

c: Ist es möglich, mRNA direkt zu sequenzieren? Wie ist das Vorgehen?

Ja, mittlerweile kann man mRNA auch mehr oder weniger direkt sequenzieren. Dabei wird auf das sequencing by synthesis zurückgegriffen. Hierbei verwendet man einzelne mRNA-Moleküle an denen Schrittweise fluoreszent markierte Nukleotidanaloge von einer speziellen Polymerase angebaut werden. Dabei kann dann die Sequenz über die Lichtemissionen über Zeit bestimmt werden.

d: Wie werden einzelne „reads“ den dazugehörigen Genen zugeordnet?

Reads werden mithilfe der Burrows-Wheeler-Transformation an das dazugehörige Genom angelegt. Dazu wird die Burrows-Wheeler-Transformation durchgeführt und der read wird als Sequenz in der BWT gesucht. (siehe Hausaufgabe 4 Aufgabe 1d)

In der Praxis können hier auch Tools wie TopHat genutzt werden.


e: Was versteht man unter SAM- und BAM- Format? Was ist der prinzipielle Unterschied?

Enthält Information über die Sequenz-reads nach dem Alignment an ein Referenzgenom. SAM ist ein texbasiertes und BAM ein binäres Dateiformat. (binär = Computersprache --> 1010001101010101000101)

SAM = Sequence Alignment Map

BAM = Binary Alignment Map

Aufgabe 2: RNA-Sequenzierung

a. Beschreibe den experimentellen Ablauf der mRNA-Sequenzierung.

Standardmäßig werden die Zellen aufgeschlossen, die mRNA extrahiert, aufgereinigt, in cDNA umbeschrieben, mit Adaptern getaggt, PCR, fragmentiert (library preparation) und dann mithilfe NGS sequenziert. Anschließen müssen die Daten noch prozessiert und alignt werden.

Eine detaillierte Beschreibung wäre:

1. Zellaufschluss: Dieser kann mit verschieden Möglichkeiten erreicht werden und je nachdem, ob man tierische, pflanzliche oder bakterielle Zellen hat, ist der Prozess auch unterschiedlich. Viele Methoden wie Chemolyse, alkalische Lyse, Sonifikation und andere können verwendet werden.

2. Zur mRNA-Extraktion werden normalerweise Kits verwendet. Diese basieren auf unterschiedlichen Methoden wie magnetic beads, Phasentrennung (mit Chloroform und Phenol) oder via Präzipitation mit Ethanol.

3. Aufreinigung wird meistens über Waschen mit Isopropanol gewährleistet.

4. Die mRNA wird in cDNA umgeschrieben, indem man reverse Transkriptase hinzugibt. Um den mRNA-Strang in cDNA umzuschreiben, muss der cDNA/RNA Hybrid wieder in Einzelsträngen getrennt werden. Bei der zweiten Synthese wird dann dUTP anstatt dTTP verwendet, damit man die Stränge voneinander unterscheiden kann. (forward/reverse) Anschließend werden die 3‘Enden adenyliert, um Ligation zu vermeiden.

5. Nun werden die Adapter an den mRNA-komplementären Strang ligiert.

6. In diesem Schritt werden alle cDNA Moleküle mit Adaptern amplifiziert.(PCR) Dadurch wird gewährleistet, dass nur mRNA-komplementäre cDNA amplifiziert wird.

7. Außerdem wird die cDNA in viele Stücke geschnitten, damit die Sequenzierung schneller und effektiver möglich ist.

8. NGS-Methoden wie Illumina oder Nanoporesequencing können solche Sequenzabschnittte schnell sequenzieren.

9. Die generierten Reads aus der Sequenzierung werden prozessiert. Dazu gehören unter anderem das Trimmen und Filtern um read(-Abschnitte) schlechter Qualität zu entfernen.

10. Die prozessierten Reads werden alignt, damit sie anschließend ausgewertet werden können.


b: Was versteht man unter der Sequenziertiefe?

Die Sequenziertiefe gibt an, wie oft ein bestimmter Abschnitt eines Genoms sequenziert wurde und bestimmt damit die Empfindlichkeit und Genauigkeit einer Sequenzierung.


[math]\displaystyle{ Sequenziertiefe= \frac{\text{mapped reads * Fragmentlänge}}{\text{effective Genomgröße}} }[/math]


c: Wie unterscheiden sich die Ergebnisse einer hohen und einer niedrigen Sequenziertiefe bei der Daten-Interpretation?

Eine niedrige Sequenziertiefe zeigt lediglich stark exprimierte Gene an und ist statistischer weniger aussagekräftig. Eine tiefe Sequenziertiefe zeigt auch schwächer exprimierte Gene an und ist, da n größer ist, statistischer aussagekräftiger. Eine hohe Sequenziertiefe dauert natürlich länger und ist teurer, sodass sie für eine Suche nach hoch-exprimierten Gene nicht unbedingt nötig ist. (da hier ein mittlerer threshold ausreichend ist)


Aufgabe 3: Sequenzierung mit FASTQ-Format

a: Ihr erhaltet Sequenzierdaten im FASTQ-Format. Die Datei hat 20 Millionen Zeilen.

i) Wie viele „reads“ habt ihr erhalten? Erkläre, wieso.

Wir haben 5 Mio. read erhalten, denn jeder read nimmt insgesamt 4 Zeilen ein. Header, Sequence, Descriptor, Quality und 20/4=5


ii) Würde die Anzahl an „reads“ ausreichen, um die Expression eines schwach exprimierten Gens zu quantifizieren?

Nein, für ein schwach exprimiertes Gen sollte man ca. 100 Mio. Reads anstreben. (da ein möglichst niedriger Threshold die größte Chance hat auch schwach exprimierte Gene zu detektieren)


b: In einer hypothetischen Zellpopulation sind ausschließlich folgende mRNA-Mengen (Anzahl an Molekülen) vorhanden: Transkript A: 5000 Transkript B: 1000 Transkript C: 10 Wie groß muss die Sequenziertiefe rein statistisch sein (in „reads“), damit man mindestens 10 „reads“ für Transkript C erhält? Geht dabei von identischen Genlängen für A, B und C aus.

Die Sequenziertiefe in Reads wäre logisch gesehen bei 6010 ausreichend, allerdings kann man mit Binomialverteilungen ausrechnen, dass dann lediglich eine 54,2%ige Chance besteht, dass es 10 oder mehr reads von Transkript C gibt. Mit 9500 reads hat man eine 95%ige Chance auf 10 oder mehr reads und mit 11500 hat man eine 99%ige Chance auf 10 reads. Eine 100% Chance kann niemals gewährleistet werden.

Falls Ihr Binomialverteilung noch einmal wiederholen wollt, empfehle ich euch diesen Link.

Andere mathematische Betrachtungsweise:

5000+1000+10 = 6010

Anzahl an Sequenzierungen, nach denen rein statistisch ein C vorkommt 6010 / 10 = 601

Bei jedem 601. read würde also rein statistisch ein C rauskommen. Für eine Sequenziertiefe von 10 braucht man also rein statistisch 601 * 10 = 6010. Nun greift aber natürlich wieder die oben angesprochene Binominalverteilung, da es ja nur ein statistisches Mittel ist und deswegen nicht jedes Mal zufällig so eintritt.