Projekt konsenzusnog kodiranja sekvenci

Projekt CCDS
Projekt CCDS
Skraćenica	CCDS
Datum osnivanja	2009.
Vrsta	Standardizacija genomskih podataka
Status	Aktivna, izdanje CCDS 21
Cilj	Konvergencija prema standardnom skupu zapisa o genima
Glavno sjedište	Nacionalni centar za informacije o biotehnologiji; Evropski institut za bioinformatiku; Kalifornijski Univerzitet, Santa Cruz; Institut Wellcome Trust Sanger
Jezik	Engleski
Br. volontera	Neograničen
Veb-sajt	https://www.ncbi.nlm.nih.gov/projects/CCDS/CcdsBrowse.cgi

Projekt konsenzusnog kodiranja sekvenci (CCDS) zajednički je napor da se održi skup podataka o regionima koje kodiraju proteine koji su identično označeni na skupovima genoma čovjeka i miša. Projekt CCDS prati identične proteinske zapis na referentnom mišjem i ljudskom genomu, sa stabilnim identifikatorom (CCDS ID) i osigurava da ih dosljedno predstavlja (NCBI) , Ensembl i UCSC pretraživač genoma. Integritet CCDS skupa podataka održava se strogim testiranjem sigurnosti kvaliteta i u toku ručnog održavanja.^[1]

Motivacija i podloga

Biološka i biomedicinska istraživanja zasnivaju se na preciznoj i dosljednoj anotaciji gena i njihovih proizvoda na sklopovima genoma. Referentne anotacije genoma dostupne su iz različitih izvora, svaka sa svojim nezavisnim ciljevima i politikama, što rezultira njihovim određenim varijacijama.

Projekt CCDS uspostavljen je kako bi se identificirao zlatni standardni skup genskih anotacija koje kodiraju proteine i koje su identificirane na sklopovima referentnih genoma čovjeka i miša u grupama koje su sudjelovale. Genetički setovi CCDS-a, do kojih se došlo konsenzusom različitih partnera ^[1] sada se sastoje od preko 18.000 ljudskih i preko 20.000 mišjih gena. CCDS skup podataka sve više predstavlja više događaja alternativni oblici prerade RNK sa svakim novim izdanjem.^[2]

Učesnici

Grupe učesnika prikupljanja bilješki koje uključuju:

(NCBI)
(EBI)
Institut Wellcome Trust Sanger| (WTSI)]]
(HGNC)
(MGI)

Ručno bilježenje pruža

Referentna sekvenca (RefSeq) na NCBI
Analiza i zapisi o genima ljudi i kičmenjaka (HAVANA) na Institutu „Wellcome Trust Sanger“.

Definiranje CCDS genskih setova

Konsenzus je definiran kao regije za kodiranje proteina, koje se slažu na startnom kodonu, stop kodonu i spojnim preradama i za koje predviđanje ispunjava mjerila osiguranja kvaliteta. Kombinaciju ručnih i automatiziranih bilješki genoma napisali su (NCBI) i Ensembl (koji uključuje ručne HAVANA bilješke), koje se uspoređuju, kako bi se identificirale napomene s odgovarajućim genomskim koordinatama.

Testiranje osiguranja kvaliteta

Kako bi se osiguralo da su CDS visokokvalitetni, provode se testovi višestrukog osiguranja kvaliteta (QA) . Svi testovi se izvode prateći korak upoređivanja napomena svake ugradnje u CCDS i neovisni su o pojedinačnim QA testovima grupe zapisa izvršenih prije njihovog upoređivanja.

Primjeri tipova testova CCDS QA, izvedenih prije prihvatanja CCDS kandidatskog podatka^[2]
Test QA	Svrha testa
Podložno NMD	Provjerava transkripte koji mogu biti podložni propadanju zbog besmislica (nonsens-zapisa: NMD
Nizak kvalitet	Provjera niske sklonost kodiranju
Neonsenzusni sajtovi za preradu RNK	Provjere nekanonskih mjesta prerade
Predviđeni pseudogen	Provjera UCSC-a za gena koji su predvivi pseudogeni
Prekratki	Provjera transkripata ili proteina koji su neobično kratki, obično <100 aminokiselina
Ortolog nije pronađen/nije konzerviran	Provjera gena koji nisu konzervirani i/ili nisu u HomoloGene-klasteru
CDS startuju ili zaustavljaju bez poravnanja	Provjera startnih ili stop kodona u referentnoj sekvenci genoma
Unutrašni stop	Provjera prisutnost internog stop kodona u genomskoj sekvenci
NCBI: Razliirta dužina Ensembllovog protein	Provjera je li protein kodiran NCBI RefSeq iste dužine kao i EBI / WTSI protein
NCBI:Ensembl niskog identiteta	Provjera > 99% ukupnog identiteta između NCBI i EBI / WTSI proteina
Diskontinuirani gen	Provjera da li GeneID više nije validan

Anotacije koje ne uspiju proći QA testove, ručno se provjeravaju, što može poboljšati rezultate ili donijeti odluku o odbijanju podudaranja zapisa na temelju neuspjeha u QA (provjeri kvaliteta).

Proces recenziranja

Baza podataka CCDS jedinstvena je po tome što postupak recenzija mora provoditi više suradnika, a prije bilo kakvih promjena mora se postići konsenzus. To je omogućeno sistemom koordinacije suradnika koji uključuje tok radnog procesa i forume za analizu i diskusiju. Baza podataka CCDS ima internu web stranicu koja služi u više svrha, uključujući komunikaciju kustosa, glasanje suradnika, pružanje posebnih izvještaja i praćenje statusa CCDS reprezentacija. Kada član CCDS grupe koji surađuje identificira CCDS ID koji će možda trebati pregledati, koristi se postupak glasanja za odlučivanje o konačnom ishodu.

Izazovi nadgledanja i anotacijske smjernice

Nonsens-posredovano propadanje (NMD): NMD je najmoćniji nadzorni proces iRNK. Ono uklanja oštećenu iRNK prije nego što se može prevesti u protein.^[3] Ovo je važno jer ako se prevede oštećena iRNK, krnji protein može uzrokovati bolest. Predloženi su različiti mehanizmi za objašnjenje NMD; jedan je model kompleks spojeva egzona (EJC). U ovom modelu, ako je stop kodon > 50 nt uzvodno od posljednjeg spoja egzon-egzon, pretpostavlja se da je transkript kandidat za NMD. Saradnici CCDS-a koristite konzervativni metod, zasnovan na EJC modelu, za pregled transkripata iRNK. Svi transkripti za koje je utvrđeno da su kandidati za NMD, izuzeti su iz CCDS skupa podataka, osim u sljedećim situacijama:

procjenjuje se da su svi transkripti na određenom lokusu kandidati NMD, ali ranije je poznato da je lokus regija koja kodira proteine;
postoje eksperimentalni dokazi koji sugeriraju da se funkcionalni protein proizvodi iz transkripta kandidata NMD.

Prije su RefSeq i HAVANA kandidatski transkripti NMD smatrani transkriptima koji kodiraju proteine, a time su i ovi transkripti kandidata za NMD predstavljeni u CCDS skupu podataka. Grupa RefSeq i projekt HAVANA naknadno su revidirali svoje politike zapisa

Multipla početna stranica u translacijskom okviru : Više inicijatora doprinosi inicijaciji translacije, kao što su uzvodno otvoreni okvir čitanja (uORF), sekundarna struktura i kontekst sekvence oko mjesta inicijacije prijevoda. Uobičajena početna lokacija kod kičmenjaka definirana je u Kozakovom konsenzusnom sekvencom: (GCC) GCCACCAUGG. Sekvenca u zagradama (GCC), motiv je s nepoznatim biološkim uticajem.^[4] Unutar Kozakove konsenzusne sekvence ostoje varijacije, kao što su G ili A tri uočena uzvodna nukleotida (na položaju -3) od AUG. Baze između položaja –3 i +4 Kozakove sekvence imaju najznačajniji uticaj na translacijsku efikasnost. Stoga je sekvenca (A/G) NNAUGG definirana kao jak Kozakov signal u projektu CCDS.

Prema mehanizmu skeniranja, mala ribosomska podjedinica može inicirati translaciju od prvog postignutog početnog kodona. Postoje izuzeci od modela skeniranja:

kada mjesto inicijacije nije okruženo jakim Kozakovim signalom, što rezultira propuštanjem skeniranja. Na taj način, ribosom preskače ovaj AUG i započinje translaciju sa početne stranice nizvodno;
kada kraći ORF može dozvoliti da ribosom ponovo pokrene prevođenje nizvodno od ORF-a.

Prema smjernicama za bilježenje CCDS-a, najduži ORF mora biti označen, osim ako postoje eksperimentalni dokazi da se interno početno mjesto koristi za pokretanje prevođenja. Pored toga, drugi tipovi novih podataka, poput onih za profiliranje ribosoma,^[5]mogu se koristiti za identifikaciju početnih kodona. CCDS skup podataka bilježi jedno mjesto pokretanja translacije po CCDS ID-u. Bilo koja alternativna početna mjesta može se koristiti za translaciju i bit će navedena u javnom zapisu CCDS-a.

Uzvodni otvoreni okviri čitanja: Inicijacijski kodoni AUG smješteni unutar vođa transkripata poznati su kao uzvodni AUG (uAUG). Ponekad su uAUG povezani s u ORF. U ORF-u nalazi se u približno 50% transkripata ljudi i miša.^[6] Postojanja u ORF-u su još jedan izazov za CCDS skup podataka. Mehanizam skeniranja za iniciranje prevođenja sugerira da se male ribosomske podjedinice (40S) vežu na 5 'kraju novonastalog iRNK transkripta i skeniraju za prvi AOD startni kodon. To je moguće ako se prvo prepozna uAUG, a zatim prevede odgovarajući uORF. Prevod u ORF-u mogao bi biti kandidat NMD, iako su studije pokazale da neki u ORF mogu izbjeći NMD. Prosječna granica veličine za u ORF-ove koji će izbjeći NMD je približno 35 aminokiselina.^[1]^[7] Također se sugerira da ORF inhibiraju translaciju gena nizvodno, zarobljavanjem inicijacijskog kompleksa ribosoma i uzrokujući disocijaciju ribosoma od iRNK prije nego što stigne do regija koje kodiraju proteine. Do sada, ni jedna studija nije izvijestila o globalnom uticaju u ORF-u na translacijsku regulaciju.

Sadašnje smjernice za zapise CCDS-a omogućavaju uključivanje transkripata iRNK koji se sadrže u ORF-ovima, ako ispunjavaju sljedeća dva biološka zahtjeva:

Transkript iRNK ima jak Kozakov signal;
Transkript iRNK je ili ≥ 35 aminokiselina ili se preklapa sa primarnim otvorenim okvirom čitanja.

Pročitani transkripti: Pročitani transkripti poznati su i kao spojeni gen ili kotranskribirani geni. Pročitani transkripti definirani su kao transkripti koji kombiniraju barem dio jednog egzona iz svakog od dva ili više različitih poznatih (partnerskih) gena koji na istom hromosomu u istoj orijentaciji.^[8] Biološka funkcija pročitanih transkripata i njihovih odgovarajućih molekula proteina ostaje nepoznata. Međutim, definicija čitavog gena u CCDS skupu podataka glasi da pojedinačni partnerski geni moraju biti različiti, a pročitani transkripti moraju dijeliti ≥ 1 egzon (ili ≥ 2 mjesta prerade, osim u slučaju zajedničkog terminalnog egzona) sa svakim od različitih kraćih lokusa. Transkripti se ne smatraju pročitanim u sljedećim okolnostima:

kada se transkripti proizvode iz preklapajućim genima, ali ne dijele iste lokacije za preradu;
kada se transkripti prevode iz gena koji imaju međusobno ugniježđene stukture. U ovom slučaju, saradnici CCDS-a i HGNC složili su se da se pročitani transkript predstavlja kao zasebno mjesto.

Kvalitet referentne sekvence genoma: Kako je CCDS skup podataka izgrađen tako da predstavlja genomske zapisee čovjeka i miša, problemi s kvalitetom sekvenci referentnog genoma čovjeka i miša postaju još jedan izazov. Problemi s kvalitetom nastaju kada se referentni genom pogrešno sklopi. Zato rastavljeni genom može sadržavati preuranjene stop kodone, indeks sa pomicanjem okvira ili vjerovatno polimorfne pseudogene. Kada se utvrde ovi problemi s kvalitetom, saradnici CCDS-a prijavljuju ih referentnom konzorciju za genom, koji istražuje i vrši potrebne ispravke.

Pristup CCDS podacima

Projekt CCDS dostupan je na stranici skupa podataka NCBI CCDS(ovdje), koji pruža FTP veze za preuzimanje i interfejs upita za prikupljanje informacija o CCDS sekvencama i lokacijama. CCDS izvještaji mogu se dobiti korištenjem interfejsa za upit, koje se nalazi na vrhu stranice skupa podataka CCDS-a. Korisnici mogu odabrati različite tipove identifikatora kao što su CCDS ID, ID gena, simbol gena, ID nukleotida i ID proteina za traženje određenih CCDS informacija. Izvještaji CCDS (slika) predstavljeni su u obliku tabele, pružajući veze do određenih resursa, poput izvještaja o povijesti, Entrez gena ^[9] ili ponovnogo upisa CCDS skupa podataka. Tabela identifikatora sekvence prikazuje informacije o transkriptima u VEGA, Ensembl i Blink. Tabela lokacija na hromosomima uključuje genomske koordinate za svaki pojedinačni egzon određene kodirajuće sekvence. Također nudi veze do nekoliko različitih preglednika genoma, koji omogućavaju vizualiziranje strukture kodirajuće regije. Tačne nukleotidne i proteinske sekvence određene kodirajuće sekvence također su prikazane u odjeljku CCDS za podatke o sekvencama.

Sadašnje aplikacije

CCDS skup podataka sastavni je dio projekta GENCODE označavanja gena^[10] i koristi se kao standard za visokokvalitetno kodiranje definicije egzona u raznim poljima istraživanja, uključujući kliničke studije, velike epigenomske studije, egzomne projekte i dizajn egzonske sekvence. Zbog konsenzusne anotacije CCDS egzona nezavisnih grupa za anotaciju, egzomski projekti su posebno smatrali CCDS kodirajuće egzone pouzdanim ciljevima za nizvodna ispitivanja (npr. za detekciju jednonukleotidnih varijanti), a ovi egzoni korišteni su kao kodirajuća regija ciljeva u komercijalno dostupnim egzomskim setovima.^[11]

Historija izdanja CCDS-a

Veličina CCDS skupova podataka nastavila je da se povećava, kako ažuriranjem računarskih zapisa genoma, koje integriraju nove skupove podataka dostavljene u Bazi podataka za međunarodnu saradnju o nukleotidnoj sekvenci (International Nucleotide Sequence Database Collaboration (INSDC), tako i tokom tekuće provjere aktivnosti koje dopunjuju ili poboljšavaju tu anotaciju. Slijedeća tabela sažima ključnu statistiku za svaku izradu CCDS-a, gdje su Javni CCDS ID-ovi svi oni koji nisu bili na pregledu ili na čekanju do ažuriranja ili povlačenja na datum objavljivanja.

Sažetak statističkih podataka za prošla izdanja CCDS-a
Izdanje	Vrsta	Naziv sklopa	Broj javnih CCDS ID-ova	Broj ID-ova	Sadašnji podatak
1	Homo sapiens	NCBI35	13,740	12,950	Mar 14, 2007
2	Mus musculus	MGSCv36	13,218	13,012	Nov 28, 2007
3	Homo sapiens	NCBI36	17,494	15,805	Maj 1, 2008
4	Mus musculus	MGSCv37	17, 082	16,888	Jan 24, 2011
5	Homo sapiens	NCBI36	19,393	17,053	Sep 2, 2009
6	Homo sapiens	GRCh37	22,912	18,174	Apr 20, 2011
7	Mus musculus	MGSCv37	21,874	19,507	Avg 14, 2012
8	Homo sapiens	GRCh37.p2	25,354	18,407	Sep 6, 2011
9	Homo sapiens	GRCh37.p5	26,254	18,474	Okt 25, 2012
10	Mus musculus	GRCm38	22,934	19,945	Avg 5, 2013
11	Homo sapiens	GRCh37.p9	27,377	18,535	Apr 29, 2013
12	Homo sapiens	GRCh37.p10	27,655	18,607	Okt 24, 2013
13	Mus musculus	GRCm38.p1	23,010	19,990	Apr 7, 2014
14	Homo sapiens	GRCh37.p13	28,649	18,673	Nov 29, 2013
15	Homo sapiens	GRCh37.p13	28,897	18,681	Avg 7, 2014
16	Mus musculus	GRCm38.p2	23,835	20,079	Sep 10, 2014
17	Homo sapiens	GRCh38	30,461	18,800	Sep 10, 2014
18	Homo sapiens	GRCh38.p2	31,371	18,826	Maj 12, 2015
19	Mus musculus	GRCm38.p3	24,834	20,215	Juli 30, 2015
20	Homo sapiens	GRCh38.p7	32,524	18,892	Sep 8, 2016
21	Mus musculus	GRCm38.p4	25,757	20,354	Dec 8, 2016

Kompletna statistika izdanja može se naći na službenoj web stranici CCDS-a na njihovom sajtu Releases & Statistics .

Budući izgledi

Dugoročni ciljevi uključuju dodavanje atributa koji pokazuju gdje je anotacija transkripta također identična (uključujući UTR) i ukazivanje na varijante prerade različitim UTR-ova koji imaju isti CCDS ID . Također se očekuje da će, kako potpuniji i kvalitetniji podaci o sekvencama genoma postaju dostupni za druge organizme, anotacije tih organizama možda biti u opsegu za predstavljanje CCDS-a.

Skup CCDS-a postat će cjelovitiji, kako se neovisne grupe provjerivača dogovore o slučajevima u kojima se u početku razlikuju, kako se javlja dodatna eksperimentalna provjera slabo podržanih gena i kako se metode automatskog bilježenja nastavljaju poboljšavati. Komunikacija između CCDS grupa za suradnju je u toku i riješit će razlike i identificirati usavršavanja između ciklusa ažuriranja CCDS-a. Očekuje se da će se ažuriranja ljudskih gena događati otprilike svakih šest mjeseci, a za miševe se izdaju svake godine.

Također pogledajte

Reference

^ ^a ^b ^c Harte, RA; Farrell, CM; Loveland, JE; Suner, MM; Wilming, L; Aken, B; Barrell, D; Frankish, A; Wallin, C; Searle, S; Diekhans, M; Harrow, J; Pruitt, KD (2012). "Tracking and coordinating an international curation effort for the CCDS project". Database. 2012: bas008. doi:10.1093/database/bas008. PMC 3308164. PMID 22434842.
^ ^a ^b Farrell, CM; O'Leary, NA; Harte, RA; Loveland, JE; Wilming, LG; Wallin, C; Diehans, M; Barrell, D; Searle, SM; Aken, B; Hiatt, SM; Frankish, A; Suner, MM; Rajput, B; Steward, CA; Brown, GR; Bennet, R; Murphy, M; Wu, W; Kay, MP; Hart, J; Rajan, J; Weber, J; Snow, C; Riddick, LD; Hunt, T; Webb, D; Thomas, M; Tamez, P; Rangwala, SH; McGarvey, KM; Pujar, S; Shkeda, A; Mudge, JM; Gonzale, JM; Gilbert, JG; Trevaion, SJ; Baetsch, R; Harrow, JL; Hubbard, T; Ostell, JM; Haussler, D; Pruitt, KD (2014). "Current status and new features of the Consensus Coding Sequence database". Nucleic Acids Res. 42 (D1): D865–D872. doi:10.1093/nar/gkt1059. PMC 3965069. PMID 24217909.
^ Alberts, B; Johnson, A; Lewis, J; Raff, M; Roberts, K; Walter, P (2002). Molecular Biology of the Cell 5th edn. New York: Garland Science.
^ Kozak, M (2002). "Pushing the limits of the scanning mechanism for initiation of translation". Gene. 299 (1–2): 1–34. doi:10.1016/S0378-1119(02)01056-9. PMC 7126118. PMID 12459250.
^ Ingolia, NT; Brar, GA; Rouskin, S; McGeachy, AM; Weissman, JS (2014). "Genome-wide Annotation and Quantitation of Translation by Ribosome Profiling". Curr. Protoc. Mol. Biol. Chapter 4: Unit–4.18. doi:10.1002/0471142727.mb0418s103. ISBN 9780471142720. PMC 3775365. PMID 23821443.
^ Calvo, SE; Pagliarni, DJ; Mootha, VK (2009). "Upstream open reading frames cause widespread reduction of protein expression and are polymorphic among humans" (PDF). Proc. Natl. Acad. Sci. U.S.A. 106 (18): 7507–12. Bibcode:2009PNAS..106.7507C. doi:10.1073/pnas.0810916106. PMC 2669787. PMID 19372376.
^ Silva, AL; Pereira, FJC; Morgado, A; Kong, J; Martins, R; Faustino, P; Liebhaber, SA; Romao, L (2006). "The canonical UPF1-dependent nonsense-mediated mRNA decay is inhibited in transcripts carrying a short open reading frame independent of sequence context". RNA. 12 (12): 2160–70. doi:10.1261/rna.201406. PMC 1664719. PMID 17077274.
^ Prakash, Tulika; Sharma, Vineet K.; Adati, Naoki; Ozawa, Ritsuko; Kumar, Naveen; Nishida, Yuichiro; Fujikake, Takayoshi; Takeda, Tadayuki; Taylor, Todd D.; Michalak, Pawel (12 October 2010). "Expression of Conjoined Genes: Another Mechanism for Gene Regulation in Eukaryotes". PLOS ONE. 5 (10): e13284. Bibcode:2010PLoSO...513284P. doi:10.1371/journal.pone.0013284. PMC 2953495. PMID 20967262.
^ Maglott, D.; Ostell, J.; Pruitt, K. D.; Tatusova, T. (28 November 2010). "Entrez Gene: gene-centered information at NCBI". Nucleic Acids Res. 39 (Database): D52–D57. doi:10.1093/nar/gkq1237. PMC 3013746. PMID 21115458.
^ Harrow, J.; Frankish, A.; Gonzalez, J. M.; Tapanari, E.; Diekhans, M.; Kokocinski, F.; Aken, B. L.; Barrell, D.; Zadissa, A.; Searle, S.; Barnes, I.; Bignell, A.; Boychenko, V.; Hunt, T.; Kay, M.; Mukherjee, G.; Rajan, J.; Despacio-Reyes, G.; Saunders, G.; Steward, C.; Harte, R.; Lin, M.; Howald, C.; Tanzer, A.; Derrien, T.; Chrast, J.; Walters, N.; Balasubramanian, S.; Pei, B.; Tress, M.; Rodriguez, J. M.; Ezkurdia, I.; van Baren, J.; Brent, M.; Haussler, D.; Kellis, M.; Valencia, A.; Reymond, A.; Gerstein, M.; Guigo, R.; Hubbard, T. J. (5 September 2012). "GENCODE: The reference human genome annotation for The ENCODE Project". Genome Res. 22 (9): 1760–1774. doi:10.1101/gr.135350.111. PMC 3431492. PMID 22955987.
^ Parla, Jennifer S; Iossifov, Ivan; Grabill, Ian; Spector, Mona S; Kramer, Melissa; McCombie, W Richard (2011). "A comparative analysis of exome capture". Genome Biol. 12 (9): R97. doi:10.1186/gb-2011-12-9-r97. PMC 3308060. PMID 21958622.

Vanjski linkovi

CCDS home page

[Second-1] Harte, RA; Farrell, CM; Loveland, JE; Suner, MM; Wilming, L; Aken, B; Barrell, D; Frankish, A; Wallin, C; Searle, S; Diekhans, M; Harrow, J; Pruitt, KD (2012). "Tracking and coordinating an international curation effort for the CCDS project". Database. 2012: bas008. doi:10.1093/database/bas008. PMC 3308164. PMID 22434842.

[third-2] Farrell, CM; O'Leary, NA; Harte, RA; Loveland, JE; Wilming, LG; Wallin, C; Diehans, M; Barrell, D; Searle, SM; Aken, B; Hiatt, SM; Frankish, A; Suner, MM; Rajput, B; Steward, CA; Brown, GR; Bennet, R; Murphy, M; Wu, W; Kay, MP; Hart, J; Rajan, J; Weber, J; Snow, C; Riddick, LD; Hunt, T; Webb, D; Thomas, M; Tamez, P; Rangwala, SH; McGarvey, KM; Pujar, S; Shkeda, A; Mudge, JM; Gonzale, JM; Gilbert, JG; Trevaion, SJ; Baetsch, R; Harrow, JL; Hubbard, T; Ostell, JM; Haussler, D; Pruitt, KD (2014). "Current status and new features of the Consensus Coding Sequence database". Nucleic Acids Res. 42 (D1): D865–D872. doi:10.1093/nar/gkt1059. PMC 3965069. PMID 24217909.

[fourth-3] Alberts, B; Johnson, A; Lewis, J; Raff, M; Roberts, K; Walter, P (2002). Molecular Biology of the Cell 5th edn. New York: Garland Science.

[seventh-4] Kozak, M (2002). "Pushing the limits of the scanning mechanism for initiation of translation". Gene. 299 (1–2): 1–34. doi:10.1016/S0378-1119(02)01056-9. PMC 7126118. PMID 12459250.

[Ninth-5] Ingolia, NT; Brar, GA; Rouskin, S; McGeachy, AM; Weissman, JS (2014). "Genome-wide Annotation and Quantitation of Translation by Ribosome Profiling". Curr. Protoc. Mol. Biol. Chapter 4: Unit–4.18. doi:10.1002/0471142727.mb0418s103. ISBN 9780471142720. PMC 3775365. PMID 23821443.

[Sixth-6] Calvo, SE; Pagliarni, DJ; Mootha, VK (2009). "Upstream open reading frames cause widespread reduction of protein expression and are polymorphic among humans" (PDF). Proc. Natl. Acad. Sci. U.S.A. 106 (18): 7507–12. Bibcode:2009PNAS..106.7507C. doi:10.1073/pnas.0810916106. PMC 2669787. PMID 19372376.

[Eighth-7] Silva, AL; Pereira, FJC; Morgado, A; Kong, J; Martins, R; Faustino, P; Liebhaber, SA; Romao, L (2006). "The canonical UPF1-dependent nonsense-mediated mRNA decay is inhibited in transcripts carrying a short open reading frame independent of sequence context". RNA. 12 (12): 2160–70. doi:10.1261/rna.201406. PMC 1664719. PMID 17077274.

[Tenth-8] Prakash, Tulika; Sharma, Vineet K.; Adati, Naoki; Ozawa, Ritsuko; Kumar, Naveen; Nishida, Yuichiro; Fujikake, Takayoshi; Takeda, Tadayuki; Taylor, Todd D.; Michalak, Pawel (12 October 2010). "Expression of Conjoined Genes: Another Mechanism for Gene Regulation in Eukaryotes". PLOS ONE. 5 (10): e13284. Bibcode:2010PLoSO...513284P. doi:10.1371/journal.pone.0013284. PMC 2953495. PMID 20967262.

[Eleventh-9] Maglott, D.; Ostell, J.; Pruitt, K. D.; Tatusova, T. (28 November 2010). "Entrez Gene: gene-centered information at NCBI". Nucleic Acids Res. 39 (Database): D52–D57. doi:10.1093/nar/gkq1237. PMC 3013746. PMID 21115458.

[Twelfth-10] Harrow, J.; Frankish, A.; Gonzalez, J. M.; Tapanari, E.; Diekhans, M.; Kokocinski, F.; Aken, B. L.; Barrell, D.; Zadissa, A.; Searle, S.; Barnes, I.; Bignell, A.; Boychenko, V.; Hunt, T.; Kay, M.; Mukherjee, G.; Rajan, J.; Despacio-Reyes, G.; Saunders, G.; Steward, C.; Harte, R.; Lin, M.; Howald, C.; Tanzer, A.; Derrien, T.; Chrast, J.; Walters, N.; Balasubramanian, S.; Pei, B.; Tress, M.; Rodriguez, J. M.; Ezkurdia, I.; van Baren, J.; Brent, M.; Haussler, D.; Kellis, M.; Valencia, A.; Reymond, A.; Gerstein, M.; Guigo, R.; Hubbard, T. J. (5 September 2012). "GENCODE: The reference human genome annotation for The ENCODE Project". Genome Res. 22 (9): 1760–1774. doi:10.1101/gr.135350.111. PMC 3431492. PMID 22955987.

[Thirteenth-11] Parla, Jennifer S; Iossifov, Ivan; Grabill, Ian; Spector, Mona S; Kramer, Melissa; McCombie, W Richard (2011). "A comparative analysis of exome capture". Genome Biol. 12 (9): R97. doi:10.1186/gb-2011-12-9-r97. PMC 3308060. PMID 21958622.

[1]