FASTA-Format
From Bioinformatik Wiki
Das FASTA-Format ist ein textbasiertes Format zur Darstellung und Speicherung von Nukleotidsequenzen einer DNA, z.B. nach einer RNASeq.
Aufbau FASTA-Format | ||
---|---|---|
Kopfzeile | > OpuC | Bacillus subtilis | Probe xy | |
Kommentar | ; Optionaler Kommentar | |
Sequenz | MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLG KAAKKADRLAAEGLVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYK ALVAELEKENEERRRLKDPNKPEHKIPQFASRKQLSDAILKEAEEKIKEE LKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTLMGQFYVMDDKKTVE QVIAEKEKEFGGKIKIVEFICFEVGEGEVAAQLFDKAVQLLREKGLG |
- Die Kopfzeile ist die Sequenz-ID und beginnt mit einem >, ohne Leerzeile startet der Text. Dabei handelt es sich um eine genaue Beschreibung der Sequenz, um diese von den anderen Sequenzen unterscheiden zu können.
- Die Kommentarzeilen sind optional, dabei kann es eine, oder mehrere Kommentarzeilen geben, eingeleitet werden diese durch ein ; (Semikolon).
- Nach den oben genannten Zeilen startet die Sequenz in 5' → 3' Richtung, entweder in Form von Nukleinbasen (AGCT), oder Aminosäuren-Codes. Lücken werden durch - dargestellt.