V tomto článku se ponoříme do vzrušujícího světa UniProt, prozkoumáme jeho původ, jeho význam dnes a jeho možné dopady v budoucnu. Od svého vzniku UniProt vzbuzuje zájem a zvědavost lidí všech věkových kategorií a profesí a stává se opakujícím se tématem konverzací, debat a akademických studií. V průběhu tohoto psaní se ponoříme do nejdůležitějších aspektů UniProt, analyzujeme jeho důsledky v různých kontextech a nabídneme kritický pohled na jeho vliv na současnou společnost. Prostřednictvím komplexního přístupu se budeme snažit poskytnout našim čtenářům úplnější pochopení UniProt a jeho důsledků v dnešním světě.
Uniprot je komplexní databáze proteinových sekvencí. Tato volně přístupná databáze obsahuje informace o funkci proteinu. Informace v UniProt sdružují výsledky projektů sekvenujících genomy a informace o biologických funkcích bílkovin.
UniProt konsorcium se skládá z Evropského institutu Bioinformatiky (EMBL-EBI), Švýcarského institutu bioinformatiky (SIB) a Protein Information Resource (PIR). V tomto projektu je zapojeno více než sto zaměstnanců, kteří se podílí na správě databáze, vývoji softwaru a podpoře uživatelů.
UniProt vznikl sloučením Swiss-Prot, TrEMBL a PIR-PSD.
EMBL-EBI a SIB byli společně správci Swiss-Prot a TrEMBL. TrEMBL (Translated EMBL Nucleotide Sequence Data Library) byl vytvořen za účelem pomoci Swiss-Prot, neboť rychlost generování sekvenčních dat byla rychlejší než byl schopen stíhat. Protein Information Resource (PIR) byl zachován a po sloučení těchto tří institucí vzniklo v roce 2002 UniProt Consortium.
UniProt se skládá ze čtyř databází: the UniProt Knowledgebase (UniProtKB)[1], the UniProt Archive (UniParc)[2], the UniProt Reference Clusters (UniRef)[3] a The UniProt Metagenomic and Environmental Sequences (UniMes).
UniProtKB je složen ze dvou částí: UniProtKB/Swiss-Prot a UniProtKB/TrEMBL
UniProtKB/Swiss-Prot je kvalitní, manuálně anotovaná sekce UniProtuKB, která sdružuje experimentální výsledky a vědecké závěry. Anotace se skládají z informací o proteinech, jejich struktuře, post-translační modifikaci, doménách, sekundární a kvartérní struktuře, podobnosti k jiným proteinům atd. V porovnání s UniProtKB/TrEMBL můžeme ve SWISS-PROT najít výrazně méně výsledků.
UniProtKB/TrEMBL obsahuje kvalitní výpočetně analyzované záznamy obohacené o automatickou anotaci. Anotované překlady kódujících sekvencí z jiných databází jsou automaticky zpracovány a převedeny do UniProtKB/TrEMBL. UniProtKB/TrEMBL obsahuje také sekvence například z PDB.
UniParc je rozsáhlá databáze obsahující všechny proteinové sekvence bez anotací, z hlavních, veřejně dostupných databází proteinových sekvencí. Proteiny se mohou objevovat v několika různých zdrojových databázích nebo v několika kopiích ve stejné databázi. UniParc ukládá každou jedinečnou sekvenci zvlášť, čímž se zabraňuje zbytečnému opakování. Každá sekvence má svůj identifikátor (UPI), díky kterému je možné určit stejný protein z různých databází.
UniRef poskytuje seskupený soubor sekvencí z UniProtKB a vybrané záznamy z UniParc. UniRef100 seskupuje všechny identické sekvence a subfragmenty s 11 nebo více zbytky do jednoho záznamu. UniRef50 a UniRef90 jsou sestaveny na bázi UniRef100.
UniMes slouží jako úložiště metagenomických a environmentálních údajů.
Internetové stránky UniProt jsou primárním přístupovým bodem k datům a dokumentaci. Tyto stránky nabízí různé nástroje jako např.: fulltextové vyhledávání, fulltextové vyhledávání pro jednotlivé pole, vyhledávání podobné sekvence, sériové vyhledávání pro více sekvencí současně, mapování identifikátoru v databázi. Web také nabízí stručný úvod pro začátečníky, příslušný odkaz lze nalézt na domovské stránce. Při vyhledávání není třeba mít znalost o funkcích organizace dat ani syntaxe vyhledávání, takže je vhodný i pro uživatele-začátečníky. Výsledky vyhledávání jsou seřazeny dle podobnosti s vyhledávaným slovem. V levé části webu je po vyhledání možné výsledky filtrovat dle různých parametrů. Výsledky vyhledávání sekvenční podobnosti lze filtrovat podle taxonomie, pro získání rychlého přehledu o taxonomickém rozdělení výsledků. Anotace sekvencí shodných záznamů mohou být transformovány do alignmentu, aby bylo vidět, zda zůstávají zachovány důležité pozice. Web umožňuje si vyhledané struktury dávat do záložek (funkce Basket) a sady výsledků stahovat.
UniProt je jedna z nejlépe anotovaných proteinových databází současnosti. U vyhledaných struktur je možné najít mnoho informací o funkci, regulaci, umístění v buňce, patologických projevech souvisejících s proteinem a konkrétní příklady mutací, které je způsobují. Dále se zde nachází informace o posttranslačních modifikacích a interakcích, na kterých se protein podílí. Je zde možno nalézt odkazy na konkrétní PDB struktury. Nezbytnou součástí databáze jsou informace o jednotlivých doménách a proteinové rodině. Také se zde nachází sekvence, kterou je možné stáhnout ve formátu FASTA a mnoho dalších.