FASTA: Format Dasar untuk Representasi Sekuens dalam Bioinformatika

Article

(sumber: https://malishoaib.wordpress.com/2013/07/26/bioinformatics-with-python-fasta-format-reader/)

Dalam bioinformatika, pengelolaan data sekuens DNA, RNA, dan protein menjadi fondasi penting untuk penelitian genom, rekayasa genetika, hingga pengembangan obat. FASTA adalah salah satu format file paling fundamental dan paling sering digunakan untuk menyimpan data sekuens. Meski sederhana, format ini telah menjadi standar de facto untuk penyimpanan, pertukaran, dan pemrosesan data sekuens biologis di berbagai platform dan algoritma analisis.

Get to know: FASTA

FASTA adalah format file berbasis teks yang digunakan untuk menyimpan sekuens biologis baik nukleotida (DNA/RNA) maupun asam amino (protein). FASTA (dibaca ‘fast-A’ atau ‘fasta’) awalnya diperkenalkan bersama program pencarian sekuens FASTA oleh Lipman & Pearson pada 1985. Lama-kelamaan, format file ini menjadi universal di komunitas bioinformatika karena kesederhanaan, kompatibilitas, dan keterbacaannya oleh manusia maupun komputer. Selain untuk penyimpanan, FASTA juga digunakan sebagai input standar untuk berbagai alat analisis seperti BLAST, Clustal Omega, MAFFT, dan hampir seluruh pipeline analisis genom modern.

Struktur File

Sebuah file FASTA umumnya berisi satu atau lebih sekuens. Setiap sekuens terdiri dari:

Baris header
Dimulai dengan karakter ‘>’, biasanya mengandung ID sekuens, deskripsi spesies/gen, dan informasi tambahan (opsional)
contoh:

Baris sekuens
Berisi huruf-huruf yang mewakili nukleotida atau asam amino, umumnya ditulis dalam huruf kapital (huruf kecil kecil juga diperbolehkan)
contoh: ATCGTACGATCGATCGTACGATC (DNA) dan MEEPQSDPSVEPPLSQETFSDLWKLL (protein)

Karakter yang digunakan dalam FASTA umumnya:

DNA: A, T, G, C (nukleotida standar adenosine, thymidine, guanine, cytidine), N (nukleotida yang tidak diketahui/apapun), R, (G/A purin) Y (T/C pirimidin), W (A/T weak), S (G/C strong), K (G/T keto), M (A/C amino)
Protein: tiap asam amino direpresentasikan dalam huruf satu karakter, misalnya A (alanine), B (aspartate/asparagine), C (cystine), D (aspartate), E (glutamate), F (phenylalanine), G (glycine), H (histidine), I (isoleucine), K (lysine), L (leucine), M (methionine), N (asparagine), P (proline), Q (glutamine), R (arginine), S (serine), T (threonine), U (selenocysteine), V (valine), W (tryptophan), Y (tyrosine), Z (glutamate/glutamine), X (asam amino tidak diketahui/apapun),

Contoh file FASTA menunjukkan gen PAX6 (https://compgenomr.github.io/book/fasta-and-fastq-formats.html)

FASTA dalam Workflow Bioinformatika Modern

FASTA adalah format inti dalam berbagai aplikasi:

Alignment: BLAST, Clustal Omega, MUSCLE, MAFFT, semua menerima FASTA sebagai input.
NCBI GenBank, Ensembl, UniProt menyediakan seluruh sekuens referensi dalam format FASTA.

Analisis genomic:

Konsensus genome (mis. hasil assembly) disimpan dalam .fasta atau .fa
Genome reference manusia (GRCh38) tersedia dalam FASTA
Digunakan untuk memetakan short reads (BWA, Bowtie2, Minimap2)

Machine Learning dan Deep Learning:

Model berbasis sekuens (Transformer, LSTM, CNN) sering menggunakan FASTA sebagai input awal, kemudian di-preprocessing menjadi encoding numerik.

Perbedaan FASTA dan FASTQ

FASTA sering disalahpahami sebagai “data sequencing mentah”, padahal untuk data mentah digunakan FASTQ, yang berisi tidak hanya sekuens tetapi juga nilai kualitas setiap base.

Tabel perbedaan FASTA dan FASTQ

Format	Isi	Digunakan untuk
FASTA	sekuens saja	analisis downstream (alignment, anotasi, dsb.)
FASTQ	sekuens + quality score	data mentah dari sequence

Conclusion

FASTA adalah format fundamental dan sangat esensial dalam bioinformatika. Kesederhanaannya membuatnya mudah digunakan manusia dan mesin, sementara fleksibilitasnya memungkinkannya menjadi format standar universal untuk penyimpanan sekuens biologis. Dari genomik, proteomik, analisis evolusioner, hingga pemodelan berbasis AI, FASTA selalu menjadi titik awal.

Penulis

Felicia Natania Lingga, S.Kom. — FDP Scholar

Referensi

Lipman, D. J., & Pearson, W. R. (1985). Rapid and sensitive protein similarity searches. Science (New York, N.Y.), 227(4693), 1435–1441. https://doi.org/10.1126/science.2983426

Pearson, W. R., & Lipman, D. J. (1988). Improved tools for biological sequence comparison. Proceedings of the National Academy of Sciences of the United States of America, 85(8), 2444–2448. https://doi.org/10.1073/pnas.85.8.2444

Query Input and database selection. National Library of Medicine, National Center for Biotechnology Information. Retrieved from: https://blast.ncbi.nlm.nih.gov/doc/blast-topics/ on 27 November 2025

Mount, D.M. (2004) Bioinformatics: Sequence and Genome Analysis. 2nd Edition, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY, USA.