Vés al contingut

Format FASTQ

De la Viquipèdia, l'enciclopèdia lliure
Infotaula de format de fitxerFormat FASTQ
Tipusformat de fitxer i textual data format (en) Tradueix Modifica el valor a Wikidata
Extensiófastq i fq Modifica el valor a Wikidata
MIMEtext/plain Modifica el valor a Wikidata
Magic number405345515F4944 Modifica el valor a Wikidata
DesenvolupadorWellcome Sanger Institute (en) Tradueix Modifica el valor a Wikidata
Extensió deformat FASTA Modifica el valor a Wikidata

El format FASTQ és un format de text pla utilitzat per emmagatzemar seqüències biològiques (normalment de nucleòtids) juntament amb llurs puntuacions de qualitat. Tant la lletra de la seqüència com la puntuació de qualitat estan codificades amb un únic caràcter ASCII per brevetat. Va ser dissenyat originalment al Wellcome Trust Sanger Institute per tal d'empaquetar les seqüències FASTA juntament amb les dades de qualitat.

Actualment podríem considerar que és l'estàndard de facto per tal d'emmagatzemar dades d'instruments de seqüenciació massiva.[1]

Format

[modifica]

Un fitxer de format FASTQ normalment utilitza 4 línies per cada seqüència biològica.

  • La 1a comença amb el caràcter '@' i tot seguit un identificador. Opcionalment una descripció de l'estil de les que trobem en la línia de títol del format FASTA.
  • La 2a conté totes les lletres de la seqüència.
  • La 3a comença amb el caràcter '+' i, de forma opcional, li segueix el mateix identificador de seqüència i descripció que la 1a línia de nou.
  • La 4a codifica els valors de qualitat de la seqüència de la 2a línia. Aquesta ha de tenir per tant la mateixa longitud que la 2a línia.

Un exemple de seqüència en format FASTQ té l'aspecte següent:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+* ''))**55CCF>>>>>>CCCCCCC65

En la 4a línia, el caràcter '!' representa la menor qualitat possible mentre que '~' la major. Els caràcters ASCII que codifiquen de menor a major qualitat possible d'esquerra a dreta són:

 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

Un altre exemple del Sequence Read Archive amb una descripció que conté informació del sequenciador utilitzat i la longitud de la seqüència:

@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC
+SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC

Referències

[modifica]
  1. Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. «The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants». Nucleic Acids Research, 38, 6, 2009, pàg. 1767–1771. DOI: 10.1093/nar/gkp1137. PMC: 2847217. PMID: 20015970.