2.Transkriptom RNA Seq 1

From Bioinformatik Wiki

Aufgabe 1: Definitionen

reads: sequenzierte cDNA-Fragmente, die assembliert werden müssen.

assembly: Prozess, dei dem die reads angeglichen (alignt) und verbunden werden. Dies kann entweder mit Referenzgenom oder ohne (de novo) geschehen

contig: Satz sich überlappender reads, die von der selben Quelle stammen.

reads, contigs und Scaffold

coverage: Summe an reads, die ein bestimmtes Nukleotid in der Sequenz beinhalten. Für einen Sequenzabschnit wird es über folgende Formel berechnet: [math]\displaystyle{ C= \frac{N*L}{G} }[/math], wobei N die Anzahl der Reads ist, L die durchschnittliche Länge der reads und G die Länge des Referenzgenoms.

library: Sammlung von in Mikroorganismen gespeicherten DNA-Fragmenten, die bei Bedarf wieder extrahiert werden können.

NGS: Next-Generation-Sequencing, Sammelbegriff für neuartige Sequenziermethoden, die einen höhere Durchsatz besitzen als die klassische Sangermethode. Dies ist vorallem dadurch gegeben, dass viele Problem parallel berarbeitet werden können.

Scaffold: Einheit von mehreren Contigs, welche bekannte Länge an Basenpaaren voneinander entfernt sind. Die Sequenz zwischen den contigs kann dabei unbekannt sein.

Aufgabe 2: Illumina Sequenzierung

a. Die Anwendung von NGS hat in den letzten Jahren stark zugenommen, Welche möglichen Einsatzgebiete gibt es?

NGS kann für Zwecke wie RNA Sequenzierung (RNAseq, Exome sequencing) und DNA Sequenzierung (Whole genome equencing, methylation sequencing, Protein-DNA Interaktionssequenzierung) verwendet werden

b. Welche Generationen der Sequenzierung werden unterschieden?

1st Gen.: Sangersequenzierung

2nd Gen.: Illumina, SOLiD, Ion torrent, Pyrosequencing

3rd Gen.: Nanopore, SMRT seq

d. Wie ist das Dateiformat FastQ aufgebaut?

1. Zeile: @ gefolgt von einem Sequenzidentifier,

2. Zeile ist die Sequenz in Buchstabencode

3. Zeile beginnt mit einem + und kann weitere Deskriptoren beinhalten

4. Zeile kodiert die Qualität der Sequenz in Zeile 4 in ASCII

Beispiel:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

Aufgabe 3

a. Wozu wird ein Assembly in Hinblick auf NGS benötigt?

Da die NGS alle auf Shotgunsequenzierung beruhen, werden nur kleine Fragmente sequenziert. Eine Assembly ist nötig um aus den gewonnen Sequenzierdaten tatsächlich nutzbare Daten über das Genom/Transkriptom zu gewinnen, indem die Sequenzen der ursprünglichen DNA/mRNA wieder zusammengesetzt werden.

b. Welche grundsätzlichen Assemblierungsmethoden gibt es?

de-novo assembly wird genutzt um ohne Template die reads zu verknüpfen.

mapping assembly wird genutzt wenn man eine existierende Sequenz (Referenzgenom) hat, an die man die reads anlegen und vergleichen kann.

c. Beschreibe den Ablauf eines Assemblys. Welche Probleme können auftreten?
d. Was ist ein Alignment und wofür wird es verwendet?