Fehérjecsalád

A fehérjecsalád evolúciósan rokon fehérjék csoportja. Sokszor a fehérjecsaládnak megfelelő géncsaládja van, ahol minden gén a megfelelő fehérjét kódolja egyértelmű kapcsolattal.

Az azonos családba tartozó fehérjék közös őstől származnak, és 3 dimenziós szerkezetük, funkcióik hasonlóak, szekvenciahomológiájuk jelentős.^[1]^[2] Az (általában aminosav-) szekvenciák homológiája az egyik leggyakoribb homológia- vagy közösevolúciósős-mutató.^[3]^[4] A szekvenciarendezéssel történő hasonlóságelemzés gyakran használatos. A közös ős nélküli fehérjék ritkán mutatnak statisztikailag jelentős szekvenciahasonlóságot, így a szekvenciarendezéssel azonosíthatók a fehérjecsaládok tagjai.^[3]^[4] A családokat néha szerkezeti hasonlóság alapján nagyobb kládokba, szupercsaládokba rendezik szerkezeti hasonlóság alapján akkor is, ha nincs jelentős szekvenciahomológia.

Több mint 60 000 fehérjecsalád ismert,^[5] de a fogalom többértelműsége eltérő számokat okoz a kutatásokban.

Terminológia és használat

Sok biológiai fogalomhoz hasonlóan a fehérjecsalád használata kontextusfüggő – jelenthet alacsony szekvenciahomológiájú nagy, közel azonos szekvenciájú, szerkezetű és működésű kis vagy a kettő közti csoportokat. Ezek megkülönböztetésére használatos a szupercsalád fogalma, mely távoli rokon fehérjéket tartalmaz, melyek rokonsága szekvenciahasonlósággal nem, csak közös szerkezeti jellemzőkkel mutatható ki.^[6]^[7]^[8] Ezek hierarchikusan használhatók: legfelül vannak a távoli rokon fehérjéket gyakran szerkezeti hasonlóság alapján csoportosító szupercsaládok,^[9] ezt követik a családok, melyek közös evolúciós eredet és jelentős szekvenciahomológia alapján tartalmazzák a fehérjéket,^[2]^[10] néha pedig tovább csoportosítják alcsaládokba, melyek közeli hasonló vagy azonos funkciójú rokon fehérjék kis csoportjai.^[11] Így egy szupercsalád, például a PA klán kisebb szekvenciahomológiát mutat, mint egy családja, a C04 család.

Nagyítás

Fent: a PA klán proteázainak szekvenciahomológiája. Lent: a C04 család 70 tagjának szekvenciahasonlósága. A nyilak a katalitikus hármast mutatják a DALI alapján.

Fehérjedomének és -motívumok

Lásd még: fehérjedomén

A fehérjecsalád-fogalom megjelenésekor még kevés fehérjeszerkezet vagy -szekvencia volt ismert. Ekkor a legtöbb ismert szerkezetű fehérje kis egydoménes fehérje volt, amilyen például a mioglobin, a hemoglobin és a citokróm c. Később sok több független szerkezeti és funkciós részt, domént tartalmazó fehérjét találtak. Az evolúciós keveredés miatt a fehérjék különböző doménjei függetlenül fejlődtek, ez a fehérjedomén-családokra való összpontosításhoz vezetett. Számos internetes forrás célja ilyen domének azonosítása és rendszerezése.^[12]^[13]

A fehérjék különböző részei különböző funkciós korlátokkal rendelkeznek. Például egy enzim aktív helye bizonyos aminosavak megfelelő háromdimenziós elrendezését igényli. Egy fehérje-fehérje kötőfelület azonban az aminosav-polaritásra vonatkozó korlátokkal rendelkező nagy felület is lehet. A funkciós korlátokkal rendelkező fehérjerészek lassabban fejlődnek a nem korlátozottaknál, például a felszíni gyűrűknél, eltérő állandósult szekvenciájú szakaszokat lehetővé téve a fehérjecsalád szekvenciáinak vizsgálatakor. Ezek a motívumok, de más fogalmak (blokk, aláírás, ujjlenyomat stb.) is használatosak. Ezek azonosítása és rendszerezése is sok forrás célja.^[14]

Fehérjecsaládok evolúciója

A 2024-ig ismert kutatások szerint fehérjecsaládok kétféleképp jelenhetnek meg. Az egyik, ha egy szülőfaj két genetikailag izolált utódfajjá válása lehetővé teszi egy gén/fehérje független változásainak (mutáció) felgyülemlését e két fajban. Ez ortológ fehérjéket eredményez állandósult szekvenciamotívumokkal. A másik, ha a génduplikáció új génmásolatot (paralóg) hoz létre. Mivel az eredeti gén továbbra is működik, paralógja divergálhat, és új funkciókat szerezhet véletlen mutációval.

Egyes gén/fehérjecsaládok, különösen az eukariótákéi jelentősen bővülnek és szűkülnek az evolúció során, gyakran teljes genomduplikációkkal együtt. A bővülések ritkábbak, a szűkülések gyakoribbak a rendezetlen fehérjékben és a szekvenciában az optimális diszperziónál távolabbi hidrofób aminosavakkal rendelkező fehérjedoménekben.^[15] Ez a genomfejlődés fontos jellemzője, de fontossága és megjelenése ismeretlen.

A RAS szupercsalád FigTree-vel készült filogenetikai fája

Használata és fontossága

A szekvenált fehérjék számának és a proteomelemzésben való érdeklődés növekedésével a fehérjék családokba rendezése és doménjeik és motívumaik leírása folyamatban van. A fehérjecsaládok megbízható azonosítása fontos a filogenetikai elemzéshez, a funkciójelöléshez, valamint a fehérjefunkciók diverzitásának felfedezéséhez fontos. Az Enzimfunkciós Kezdeményezés fehérjecsaládokat és -szupercsaládokat használ a szekvencia/szerkezetalapú stratégia fejlesztéséhez az ismeretlen funkciójú enzimek funkciójának megismeréséhez.^[16] Az algoritmikus módszer a hasonlóságon alapul.

Fehérjecsalád-források

Sok biológiai adatbázis fehérjecsaládok példáit tárolja, és lehetővé teszi az új fehérjék családba sorolását. Ilyenek például:

Pfam – Elrendezéssel és HMM-ekkel működő adatbázis
PROSITE – Fehérjedomének, -családok és funkciós helyek adatbázisa
PIRSF – Szupercsalád-osztályzó rendszer
PASS2 - Protein Alignment as Structural Superfamilies v2 - PASS2@NCBS^[17]
SUPERFAMILY – HMM-könyvtár szupercsaládok bemutatásával, szupercsalád- és családjelölések adatbázisa teljesen szekvenált genomokhoz
SCOP és CATH – Fehérjeszerkezetek besorolása szupercsaládokba, családokba és doménekhez

Ugyanígy sok adatbázis-kereső algoritmus van, például:

BLAST – DNS-szekvenciahasonlóság-keresés
BLASTp – Fehérjeszekvenciahasonlóság-keresés
OrthoFinder – fehérjéket családokba soroló módszer^[18]^[19]

Jegyzetek

↑ What are protein families? Protein classification (angol nyelven). EMBL-EBI . (Hozzáférés: 2023. november 14.)
↑ ^a ^b Orengo, Christine. Introduction, Protein Families: Relating Protein Sequence, Structure, and Function (angol nyelven). Hoboken, New Jersey: John Wiley & Sons, Inc., vii-xi. o.. DOI: 10.1002/9781118743089.fmatter (2013). ISBN 9781118743089
↑ ^a ^b Pearson, William R. (2013). „An Introduction to Sequence Similarity (“Homology”) Searching”. Current Protocols in Bioinformatics 3. DOI:10.1002/0471250953.bi0301s42. ISSN 1934-3396. PMID 23749753. PMC 3820096.
↑ ^a ^b Chen, Junjie (2018. március 1.). „A comprehensive review and comparison of different computational methods for protein remote homology detection”. Briefings in Bioinformatics 19 (2), 231–244. o. DOI:10.1093/bib/bbw108. ISSN 1477-4054. PMID 27881430.
↑ Kunin, Victor (2003). „Myriads of protein families, and still counting”. Genome Biology 4 (2), 401. o. DOI:10.1186/gb-2003-4-2-401. ISSN 1474-760X. PMID 12620116. PMC 151299.
↑ Dayhoff, MO (1974. december 1.). „Computer analysis of protein sequences”. Federation Proceedings 33 (12), 2314–6. o. PMID 4435228.
↑ Dayhoff, MO (1975). „Evolution of sequences within protein superfamilies”. Die Naturwissenschaften 62 (4), 154–161. o. DOI:10.1007/BF00608697.
↑ Dayhoff, MO (1976. augusztus 1.). „The origin and evolution of protein superfamilies”. Federation Proceedings 35 (10), 2132–8. o. PMID 181273.
↑ Orengo, Christine A. (2005. június 1.). „Protein Families and Their Evolution—A Structural Perspective” (angol nyelven). Annual Review of Biochemistry 74 (1), 867–900. o. DOI:10.1146/annurev.biochem.74.082803.133029. ISSN 0066-4154. PMID 15954844.
↑ Veeramachaneni, Vamsi (2004). „Visualizing Sequence Similarity of Protein Families”. Genome Research 14 (6), 1160–1169. o. DOI:10.1101/gr.2079204. ISSN 1088-9051. PMID 15140831. PMC 419794.
↑ Holm, Liisa. Automated Sequence-Based Approaches for Identifying Domain Families, Protein Families: Relating Protein Sequence, Structure, and Function. Hoboken, New Jersey: John Wiley & Sons, Inc., 1-24. o.. DOI: 10.1002/9781118743089.ch1 (2013). ISBN 9781118743089
↑ Wang, Yan (2021. január 1.). „Protein domain identification methods and online resources”. Computational and Structural Biotechnology Journal 19, 1145–1153. o. DOI:10.1016/j.csbj.2021.01.041. ISSN 2001-0370. PMID 33680357. PMC 7895673.
↑ Bateman, Alex. Sequence Classification of Protein Families: Pfam and other Resources, Protein Families: Relating Protein Sequence, Structure, and Function (angol nyelven). Hoboken, New Jersey: John Wiley & Sons, Inc., 25-36. o.. DOI: 10.1002/9781118743089.ch2 (2013). ISBN 9781118743089
↑ Mulder, Nicola J. (2001. december 19.). „Tools and resources for identifying protein families, domains and motifs”. Genome Biology 3 (1), reviews2001.1. o. DOI:10.1186/gb-2001-3-1-reviews2001. ISSN 1474-760X. PMID 11806833. PMC 150457.
↑ James, Jennifer E (2023. április 4.). „Differential Retention of Pfam Domains Contributes to Long-term Evolutionary Trends”. Molecular Biology and Evolution 40 (4). DOI:10.1093/molbev/msad073. PMC 10089649.
↑ Gerlt, John A. (2011. november 22.). „The Enzyme Function Initiative” (angol nyelven). Biochemistry 50 (46), 9950–9962. o. DOI:10.1021/bi201312u. ISSN 0006-2960. PMID 21999478. PMC 3238057.
↑ Gandhimathi, A. (2012). „PASS2 version 4: An update to the database of structure-based sequence alignments of structural domain superfamilies”. Nucleic Acids Research 40 (D1), D531–D534. o. DOI:10.1093/nar/gkr1096. ISSN 1362-4962. PMID 22123743. PMC 3245109.
↑ Emms, David M. (2015. augusztus 6.). „OrthoFinder: Solving fundamental biases in whole genome comparisons dramatically improves orthogroup inference accuracy”. Genome Biology 16 (1), 157. o. DOI:10.1186/s13059-015-0721-2. ISSN 1474-760X. PMID 26243257. PMC 4531804.
↑ Emms, David M. (2019. november 14.). „OrthoFinder: Phylogenetic orthology inference for comparative genomics”. Genome Biology 20 (1), 238. o. DOI:10.1186/s13059-019-1832-y. ISSN 1474-760X. PMID 31727128. PMC 6857279.

További információk

A Wikimédia Commons tartalmaz Fehérjecsalád témájú médiaállományokat.

[1] What are protein families? Protein classification (angol nyelven). EMBL-EBI . (Hozzáférés: 2023. november 14.)

[OrengoIntro-2] Orengo, Christine. Introduction, Protein Families: Relating Protein Sequence, Structure, and Function (angol nyelven). Hoboken, New Jersey: John Wiley & Sons, Inc., vii-xi. o.. DOI: 10.1002/9781118743089.fmatter (2013). ISBN 9781118743089

[Pearson2013-3] Pearson, William R. (2013). „An Introduction to Sequence Similarity (“Homology”) Searching”. Current Protocols in Bioinformatics 3. DOI:10.1002/0471250953.bi0301s42. ISSN 1934-3396. PMID 23749753. PMC 3820096.

[Chen2018-4] Chen, Junjie (2018. március 1.). „A comprehensive review and comparison of different computational methods for protein remote homology detection”. Briefings in Bioinformatics 19 (2), 231–244. o. DOI:10.1093/bib/bbw108. ISSN 1477-4054. PMID 27881430.

[5] Kunin, Victor (2003). „Myriads of protein families, and still counting”. Genome Biology 4 (2), 401. o. DOI:10.1186/gb-2003-4-2-401. ISSN 1474-760X. PMID 12620116. PMC 151299.

[pmid4435228-6] Dayhoff, MO (1974. december 1.). „Computer analysis of protein sequences”. Federation Proceedings 33 (12), 2314–6. o. PMID 4435228.

[7] Dayhoff, MO (1975). „Evolution of sequences within protein superfamilies”. Die Naturwissenschaften 62 (4), 154–161. o. DOI:10.1007/BF00608697.

[pmid181273-8] Dayhoff, MO (1976. augusztus 1.). „The origin and evolution of protein superfamilies”. Federation Proceedings 35 (10), 2132–8. o. PMID 181273.

[9] Orengo, Christine A. (2005. június 1.). „Protein Families and Their Evolution—A Structural Perspective” (angol nyelven). Annual Review of Biochemistry 74 (1), 867–900. o. DOI:10.1146/annurev.biochem.74.082803.133029. ISSN 0066-4154. PMID 15954844.

[10] Veeramachaneni, Vamsi (2004). „Visualizing Sequence Similarity of Protein Families”. Genome Research 14 (6), 1160–1169. o. DOI:10.1101/gr.2079204. ISSN 1088-9051. PMID 15140831. PMC 419794.

[11] Holm, Liisa. Automated Sequence-Based Approaches for Identifying Domain Families, Protein Families: Relating Protein Sequence, Structure, and Function. Hoboken, New Jersey: John Wiley & Sons, Inc., 1-24. o.. DOI: 10.1002/9781118743089.ch1 (2013). ISBN 9781118743089

[12] Wang, Yan (2021. január 1.). „Protein domain identification methods and online resources”. Computational and Structural Biotechnology Journal 19, 1145–1153. o. DOI:10.1016/j.csbj.2021.01.041. ISSN 2001-0370. PMID 33680357. PMC 7895673.

[13] Bateman, Alex. Sequence Classification of Protein Families: Pfam and other Resources, Protein Families: Relating Protein Sequence, Structure, and Function (angol nyelven). Hoboken, New Jersey: John Wiley & Sons, Inc., 25-36. o.. DOI: 10.1002/9781118743089.ch2 (2013). ISBN 9781118743089

[14] Mulder, Nicola J. (2001. december 19.). „Tools and resources for identifying protein families, domains and motifs”. Genome Biology 3 (1), reviews2001.1. o. DOI:10.1186/gb-2001-3-1-reviews2001. ISSN 1474-760X. PMID 11806833. PMC 150457.

[15] James, Jennifer E (2023. április 4.). „Differential Retention of Pfam Domains Contributes to Long-term Evolutionary Trends”. Molecular Biology and Evolution 40 (4). DOI:10.1093/molbev/msad073. PMC 10089649.

[16] Gerlt, John A. (2011. november 22.). „The Enzyme Function Initiative” (angol nyelven). Biochemistry 50 (46), 9950–9962. o. DOI:10.1021/bi201312u. ISSN 0006-2960. PMID 21999478. PMC 3238057.

[17] Gandhimathi, A. (2012). „PASS2 version 4: An update to the database of structure-based sequence alignments of structural domain superfamilies”. Nucleic Acids Research 40 (D1), D531–D534. o. DOI:10.1093/nar/gkr1096. ISSN 1362-4962. PMID 22123743. PMC 3245109.

[18] Emms, David M. (2015. augusztus 6.). „OrthoFinder: Solving fundamental biases in whole genome comparisons dramatically improves orthogroup inference accuracy”. Genome Biology 16 (1), 157. o. DOI:10.1186/s13059-015-0721-2. ISSN 1474-760X. PMID 26243257. PMC 4531804.

[19] Emms, David M. (2019. november 14.). „OrthoFinder: Phylogenetic orthology inference for comparative genomics”. Genome Biology 20 (1), 238. o. DOI:10.1186/s13059-019-1832-y. ISSN 1474-760X. PMID 31727128. PMC 6857279.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]