5 Transkriptom RNA Seq 2

From Bioinformatik Wiki
Revision as of 13:29, 23 September 2021 by Skl (talk | contribs)

RNAseq

RNA sequencing ist eine Methode zur Analyse von Transkriptomen. Hierbei wird die Sequenz aller in der Probe vorhandenen mRNA Moleküle durch Next-Generation Sequencing (NGS) ermittelt.

1. Isolierung von mRNA

  • nur 1-2% der totalen RNA ist mRNA
  • 90% rRNA
  • weil wir nur die mRNA isolieren wollen, müssen wir diese von der restlichen RNA trennen
  • das ist entweder durch die sogennante poly(A) Anreicherung möglich, dabeimacht man sich die besondere Eigenschaft der mRNA zu nutze
  • diese besitzt im Gegensatz zu anderen RNA Spezies einen polyA-Schwanz, immobilisiert man auf der Matrix einer Chromatofraphiesäule polyT-Seqeunezen, kann die mRNA komplementär an diese binden und kann so hufgereinigt werden
  • die zweite Möglichkeit ist der spezifische Abbau von rRNA
  • diese Vorgehensweise gewinnt vor allem bei Prokaryotischer mRNA an Bedeutung, bei der es keinen polyA-Schwanz gibt



2. cDNA Synthese und Library Präparation

  • Information über kodierenden Strang kann durch 2-stufige cDNA Synthese und dUTP Nukleotiden konserviert werden.



3' UUUUU-AAAA 5'     mRNA mit polyA tail
↓Reverse Transcriptase
3' AAAAA-TTTT 5'    cDNA Strang wird mit Reverse Transkriptase synthetisiert
↓Synthese des komplementären cDNA Strangs durch Polymerase
3' AAAAA-TTTT 5'
5' UUUUU-AAAA 3'    cDNA Doppelstrang, dUTPs werden hinzugegeben keine dTTPs, dadurch Markierung des non-coding Strangs
A-A   A-A   A-TTT
U-U   U-U  U-AAA    library preparation und Adapter Ligierung

  • Abbau des non Coding Stranges durch durch URacil-DNA-Glykosylase
  • baut spezifisch den non coding Strang ab, weil dieser als einziger Uracil besitzt
  • d.h. alle zum cDNA-Originalstrang komplementären Stränge werden abgebaut
  • durch die Adapter bleibt die Topologie erhalten
  • es folgt die Amplifikation mittels PCR

3. Sequenzierung/ Next generation Sequencing

  • Sequenziertiefe bestimmt die Empfindlichkeit und die Genauigkeit
  • 5 Millionen reads ausreichend für mittel-hoch exprimierte Gene
  • 100 Millionen reads für schwach exprimierte Gene
  • wichtig: Anzahl an Replikaten bestimmt statistische Sensitivität für Unterschiede

  Replikate pro Gruppe
fold change 3 5 10
1,25 17% 25% 44%
1,5 43% 64% 91%
2 87% 98% 100%

4. Datenanalyse

Präsprozessierung der Rohdaten:
⇒Filtern von Basen mit geringer Qualität
⇒ Trimmen von Adaptersequenzen und PCR-Primersequenzen
⇒ Programme: FASTQC, NGSQC, Trimmomatic

5. Read Alignment

Read-alignment.png