MoonNote

FASTQ 본문

Bioinformatics/Fastq

FASTQ

Kisung Moon 2021. 1. 27. 11:09

FastQ

  • FASTQ format은 'AGCT'로 표현되는 생물학적 sequence와 ASCII 문자로 표시된 각 염기에 대한 quality(Phred)score를 모두 저장하기 위한 Text-based format으로 주로 NGS 기술로 생산된 sequencing raw data에 많이 사용된다.
  • 보통 quality 값은 두자리 숫자로 표시되다보니 대용량의 NGS data를 저장하는데 많은 용량을 차지하게 되기 때문에 사용 용량을 줄이기 위하여 quality 값을 아스키 코드로 대체한 것이다.
  • FASTQ format은 높은 처리량 sequencing 기기의 출력을 저장하기 위한 실질적인 표준으로 자리 잡았다.
  • Quality socre는 일반적으로 2 ~ 40 범위에 있는 정수(Q)이지만, 더 높은 값과 더 낮은 값을 사용하는 경우도 있으며, 특히 Illumina flatform의 1.8이상 버전에서는 Q 점수가 최대 41까지 reads가 생성된다.

 

FASTQ의 구성

@SEQ_ID
Sequence
+
Quality scores
  • 예시
- 1번 line : '@' 문자로 시작하고 sequence identifier와 선택적 description (FASTA 제목 line과 같은)으로 구성
- 2번 line : sequence letter
- 3번 line : '+' 문자로 시작하고, 선택적으로 동일한 sequence identifier가 다시 옴
- 4번 line : 각 sequence에 대한 quality 값을 아스키 코드로 인코딩하며, sequence 문자와 동일한 수의 기호를 포함해야 함

Quality score

  • FASTQ 파일의 4번 line은 quality score를 나타내며, phred score로 나타낸다.
  • Quality score란 하나의 sequence position에서 base call 에러 확률에 대해 계산한 값이다.(p : probability of color call error)
  • 염기서열분석장치의 정확성을 평가하는데 가장 많이 사용되는 기준
  • Q = -10 log P
  • Quality score 값이 높을수록(ASCII code 값이 높을 수록) error rate가 낮다.

  • Note that Phred-64 was only ever used by Illumina and is not deprecated.

Reference

www.incodom.kr/FASTQ#h_2d513ff0b9ed691874556eb4395463e7

www.illumina.com/documents/products/technotes/technote_Q-Scores.pdf

snowple.tistory.com/328

learn.gencore.bio.nyu.edu/ngs-file-formats/quality-scores/

m.blog.naver.com/PostView.nhn?blogId=discoveryngs&logNo=221031846905&proxyReferer=https:%2F%2Fwww.google.com%2F

'Bioinformatics > Fastq' 카테고리의 다른 글

FASTQ 프로그램  (0) 2021.01.27
Comments