1 Datenbanken: Difference between revisions

From Bioinformatik Wiki
No edit summary
Line 1: Line 1:
Man unterscheidet zwei Arten von Datenbanken: Primär- und Sekundärdatenbanken.


== Primärdatenbanken ==
* Primärdatenbanken enthalten experimentell ermittelte Daten
* man unterscheidet zwischen zwei Konzepten:
1. Datenbanken in die nach minimaler Konsistenzprüfung Sequenzdaten hochgeladen werden können z.B. EMBL und DDB
* Vorteil: schnelle öffentliche Verfügbarkeit der Sequenten
* Nachteil: fehlende Qualitätsprüfung
2. Datenbanken in der jeder Eintrag geprüft wird -curated Datenbanken z.B. PIR
* Vorteil: Qualitätssicherung
* Nachteil: fehlende Aktualität


== Biologisches Problem ==
Man unterscheidet Datenbaken auch abhängig von den gespeicherten biologischen Daten. 


Das Biologische Problem wurde hierbei am Beispiel des Gens NAT8L, welches im Krebsmetabolismus eine Rolle spielt, bearbeitet. In diesem Beispiel kann man Tumorzellen charakterisieren indem man ihr NAT8L-Expressionslevel durch eine Tranksriptomanalyse herausfindet. Dafür kann man Methoden wie RNAseq oder Microarrays verwenden. Alternativ kann man in diesem Beispiel auch in einer Datenbank nach Expressionsdaten in Tumorgewebe dieser Art nachschlagen und somit das Experiment umgehen.
=== Genomdatenbanken ===
* Genomsequenzen, mRNAs, tRNAs. rRNAs, microRNAs und Sequenzpolymorphismen lassen sich in konsistenter gemeinsamer Ansicht darstellen
z.B. ENSEMBE-Datenbank, GoldenPath-Browser


== [[Microarrays]] ==
=== Motivdatenbanken ===
* ermöglicht die schnelle Identifizierung von konservierten Sequenzen die für wichtige Proteinstrukturen codieren
* so lässt sich schnell die Funktion unbekannter Proteine abschätzen und Proteine aufgrund ihrer Funktion in Proteinfamilien einordnen 
z.B. BLOCKS, Prosite, ProDom


Die Methode der Microarrays wurde als Möglichkeit vorgestellt die Transkriptomaktivität zweier Proben zu bestimmen.
=== Molekulare Strukturdatenbank ===
* primäre Datenbanken für Proteinstrukturen (3D Strukturen) z.B. PDB


== [[RNAseq]] ==


Die RNAseq wurde als weitere Methode zur Transkriptomsbestimmung vorgestellt.
=== Transkriptomdatenbanken ===
* Funktionelle Genomik Daten
z.B. SAGE, ArrayExpress, GEO


== [[Vergleich RNAseq - Microarrays]] ==
=== Refernezdatenbanken ===
*stellen den Bezug zwischen einem Datenbankeintrag in einer Sequenzdatenbank und der wissenschaftlichen Originalliteratur zu dem zugehörigen Gen bzw. Protein her z.B. PubMed


Vor- und Nachteile von Microarrays und RNAseq wurden gegeneinander abgewogen um die Methoden besser kennenzulernen.


== [[Datenbanken]] ==
== Sekundärdatenbank ==
 
* Sekundärdatenbanken enthalten abgeleitete oder vorhergesagte Daten z.B. Expression Atlas, Uniprot
Verschiedene Datenbanken wurden als Ressourcen vorgestellt, welche zum Vergleich und zur Vorhersage von Daten verwendet werden können.
 
== FASTA ==
Allgemeines Format zur Übertragung biologischer Daten (Aminosäure- oder Nukleotidsequenzen)
 
Aufbau:
 
1. Zeile: >Beschreibung der Sequenz
 
2. Zeile: Sequenz (IUPAC standard)
 
== Weiterführendes ==
Überblick über biologische Datenbanken und die open-access Philosophie der Hauptanbieter:
 
https://www.ebi.ac.uk/training-beta/online/courses/bioinformatics-terrified/the-role-of-public-databases/

Revision as of 15:15, 20 September 2021

Man unterscheidet zwei Arten von Datenbanken: Primär- und Sekundärdatenbanken.

Primärdatenbanken

  • Primärdatenbanken enthalten experimentell ermittelte Daten
  • man unterscheidet zwischen zwei Konzepten:

1. Datenbanken in die nach minimaler Konsistenzprüfung Sequenzdaten hochgeladen werden können z.B. EMBL und DDB

  • Vorteil: schnelle öffentliche Verfügbarkeit der Sequenten
  • Nachteil: fehlende Qualitätsprüfung

2. Datenbanken in der jeder Eintrag geprüft wird -curated Datenbanken z.B. PIR

  • Vorteil: Qualitätssicherung
  • Nachteil: fehlende Aktualität

Man unterscheidet Datenbaken auch abhängig von den gespeicherten biologischen Daten.

Genomdatenbanken

  • Genomsequenzen, mRNAs, tRNAs. rRNAs, microRNAs und Sequenzpolymorphismen lassen sich in konsistenter gemeinsamer Ansicht darstellen

z.B. ENSEMBE-Datenbank, GoldenPath-Browser

Motivdatenbanken

  • ermöglicht die schnelle Identifizierung von konservierten Sequenzen die für wichtige Proteinstrukturen codieren
  • so lässt sich schnell die Funktion unbekannter Proteine abschätzen und Proteine aufgrund ihrer Funktion in Proteinfamilien einordnen

z.B. BLOCKS, Prosite, ProDom

Molekulare Strukturdatenbank

  • primäre Datenbanken für Proteinstrukturen (3D Strukturen) z.B. PDB


Transkriptomdatenbanken

  • Funktionelle Genomik Daten

z.B. SAGE, ArrayExpress, GEO

Refernezdatenbanken

  • stellen den Bezug zwischen einem Datenbankeintrag in einer Sequenzdatenbank und der wissenschaftlichen Originalliteratur zu dem zugehörigen Gen bzw. Protein her z.B. PubMed


Sekundärdatenbank

  • Sekundärdatenbanken enthalten abgeleitete oder vorhergesagte Daten z.B. Expression Atlas, Uniprot