5.Transkriptom RNA Seq 2
Aufgabe 1: mRNA und RNA-Sequenzierung allgemein
a: Was versteht man unter mRNA?
Messenger-RNA, auch mRNA, ist ein einzelsträngiges Transkript einer genomischen Sequenz. Sie entsteht während der Transkription durch differentielle Genexpression (Transcriptomics) Wird in Eukaryoten noch einmal prozessiert und gespleißt. Zu beachten ist, dass die mRNA Ribose als Zucker besitzt und nicht Desoxyribose (wie die DNA). Außerdem wird statt Thymin Uracil verwendet. Ihr Zweck ist es die Information für den Aufbau eines Proteins zu speichern und zu transportieren.
b: Wie könnte man vorgehen, um mRNA anzureichern?
Bei dieser Frage gibt es mehrere Lösungen, eine Antwort könnte so aussehen:
Man lysiert eine Zellkultur, isoliert die mRNA mit der Methode der eigenen Wahl (man könnte zum Beispiel die RNA an magnetische microbeads mit Poly-A-Tag binden lassen und dann eine Magnetfilterung durchführen). Anschließend kann man die Probe anreichern indem man die rRNA abbaut. Die mRNA kann man dann aufkonzentrieren indem man in einer Vakuumkammer Wasser der Lösung verdampfen lässt und somit die Konzentration an mRNA erhöht.
Grundsätzlich lässt sich sagen:
- Abbau von rRNA bei Prokaryoten, da diese 90% der RNA einer Zelle ausmacht
- Anreicherung über Poly (A) -Schwanz bei Eukaryoten
c: Ist es möglich, mRNA direkt zu sequenzieren? Wie ist das Vorgehen?
Ja, mittlerweile kann man mRNA auch mehr oder weniger direkt sequenzieren. Dabei wird auf das sequencing by synthesis zurückgegriffen. Hierbei verwendet man einzelne mRNA-Moleküle an denen Schrittweise fluoreszent markierte Nukleotidanaloge von einer speziellen Polymerase angebaut werden. Dabei kann dann die Sequenz über die Lichtemissionen über Zeit bestimmt werden.
d: Wie werden einzelne „reads“ den dazugehörigen Genen zugeordnet?
Reads werden mithilfe der Burrows-Wheeler-Transformation an das dazugehörige Genom angelegt. Dazu wird die Burrows-Wheeler-Transformation durchgeführt und der read wird als Sequenz in der BWT gesucht. (siehe Hausaufgabe 4 Aufgabe 1d)
In der Praxis können hier auch Tools wie TopHat genutzt werden.
e: Was versteht man unter SAM- und BAM- Format? Was ist der prinzipielle Unterschied?
Enthält Information über die Sequenz-reads nach dem Alignment an ein Referenzgenom. SAM ist ein texbasiertes und BAM ein binäres Dateiformat. (binär = Computersprache --> 1010001101010101000101)
SAM = Sequence Alignment Map
BAM = Binary Alignment Map
Aufgabe 2: RNA-Sequenzierung
a. Beschreibe den experimentellen Ablauf der mRNA-Sequenzierung.
Standardmäßig werden die Zellen aufgeschlossen, die mRNA extrahiert, aufgereinigt, in cDNA umbeschrieben, mit Adaptern getaggt, PCR, fragmentiert (library preparation) und dann mithilfe NGS sequenziert. Anschließen müssen die Daten noch prozessiert und alignt werden.
Eine detaillierte Beschreibung wäre:
1. Zellaufschluss: Dieser kann mit verschieden Möglichkeiten erreicht werden und je nachdem, ob man tierische, pflanzliche oder bakterielle Zellen hat, ist der Prozess auch unterschiedlich. Viele Methoden wie Chemolyse, alkalische Lyse, Sonifikation und andere können verwendet werden.
2. Zur mRNA-Extraktion werden normalerweise Kits verwendet. Diese basieren auf unterschiedlichen Methoden wie magnetic beads, Phasentrennung (mit Chloroform und Phenol) oder via Präzipitation mit Ethanol.
3. Aufreinigung wird meistens über Waschen mit Isopropanol gewährleistet.
4. Die mRNA wird in cDNA umgeschrieben, indem man reverse Transkriptase hinzugibt. Um den mRNA-Strang in cDNA umzuschreiben, muss der cDNA/RNA Hybrid wieder in Einzelsträngen getrennt werden. Bei der zweiten Synthese wird dann dUTP anstatt dTTP verwendet, damit man die Stränge voneinander unterscheiden kann. (forward/reverse) Anschließend werden die 3‘Enden adenyliert, um Ligation zu vermeiden.
5. Nun werden die Adapter an den mRNA-komplementären Strang ligiert.
6. In diesem Schritt werden alle cDNA Moleküle mit Adaptern amplifiziert.(PCR) Dadurch wird gewährleistet, dass nur mRNA-komplementäre cDNA amplifiziert wird.
7. Außerdem wird die cDNA in viele Stücke geschnitten, damit die Sequenzierung schneller und effektiver möglich ist.
8. NGS-Methoden wie Illumina oder Nanoporesequencing können solche Sequenzabschnittte schnell sequenzieren.
9. Die generierten Reads aus der Sequenzierung werden prozessiert. Dazu gehören unter anderem das Trimmen und Filtern um read(-Abschnitte) schlechter Qualität zu entfernen.
10. Die prozessierten Reads werden alignt, damit sie anschließend ausgewertet werden können.
b: Was versteht man unter der Sequenziertiefe?
Die Sequenziertiefe gibt an, wie oft ein bestimmter Abschnitt eines Genoms sequenziert wurde und bestimmt damit die Empfindlichkeit und Genauigkeit einer Sequenzierung.
c: Wie unterscheiden sich die Ergebnisse einer hohen und einer niedrigen Sequenziertiefe bei der Daten-Interpretation?
Eine niedrige Sequenziertiefe zeigt lediglich stark exprimierte Gene an und ist statistischer weniger aussagekräftig. Eine tiefe Sequenziertiefe zeigt auch schwächer exprimierte Gene an und ist, da n größer ist, statistischer aussagekräftiger. Eine hohe Sequenziertiefe dauert natürlich länger und ist teurer, sodass sie für eine Suche nach hoch-exprimierten Gene nicht unbedingt nötig ist. (da hier ein mittlerer threshold ausreichend ist)
Aufgabe 3: Sequenzierung mit FASTQ-Format
a: Ihr erhaltet Sequenzierdaten im FASTQ-Format. Die Datei hat 20 Millionen Zeilen.
i) Wie viele „reads“ habt ihr erhalten? Erkläre, wieso.
Wir haben 5 Mio. read erhalten, denn jeder read nimmt insgesamt 4 Zeilen ein. Header, Sequence, Descriptor, Quality und 20/4=5
ii) Würde die Anzahl an „reads“ ausreichen, um die Expression eines schwach
exprimierten Gens zu quantifizieren?
Nein, für ein schwach exprimiertes Gen sollte man ca. 100 Mio. Reads anstreben. (da ein möglichst niedriger Threshold die größte Chance hat auch schwach exprimierte Gene zu detektieren)
b: In einer hypothetischen Zellpopulation sind ausschließlich folgende mRNA-Mengen (Anzahl an Molekülen) vorhanden: Transkript A: 5000 Transkript B: 1000 Transkript C: 10 Wie groß muss die Sequenziertiefe rein statistisch sein (in „reads“), damit man mindestens 10 „reads“ für Transkript C erhält? Geht dabei von identischen Genlängen für A, B und C aus.
Die Sequenziertiefe in Reads wäre logisch gesehen bei 6010 ausreichend, allerdings kann man mit Binomialverteilungen ausrechnen, dass dann lediglich eine 54,2%ige Chance besteht, dass es 10 oder mehr reads von Transkript C gibt. Mit 9500 reads hat man eine 95%ige Chance auf 10 oder mehr reads und mit 11500 hat man eine 99%ige Chance auf 10 reads. Eine 100% Chance kann niemals gewährleistet werden.
Falls Ihr Binomialverteilung noch einmal wiederholen wollt, empfehle ich euch diesen Link.
Andere mathematische Betrachtungsweise:
5000+1000+10 = 6010
Anzahl an Sequenzierungen, nach denen rein statistisch ein C vorkommt 6010 / 10 = 601
Bei jedem 601. read würde also rein statistisch ein C rauskommen. Für eine Sequenziertiefe von 10 braucht man also rein statistisch 601 * 10 = 6010. Nun greift aber natürlich wieder die oben angesprochene Binominalverteilung, da es ja nur ein statistisches Mittel ist und deswegen nicht jedes Mal zufällig so eintritt.