Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
Tags
- 일부 레이어 고정
- 시계열 라이브러리
- 선형함수 딥러닝
- Prompt Tuning for Graph Neural Networks
- Skip connection
- 판다스 조건
- 비선형함수 딥러닝
- sktime 예제
- molecular representation
- EDA 추천 파이썬
- sktime tutorial
- EDA in python
- python 경우의 수
- pandas
- pandas 행 제거
- 비선형함수
- pandas row 제거
- pandas 조건
- pretraining
- pytorch dataset split
- pytorch 데이터셋 나누기
- pandas 특정 조건 열 제거
- 경우의 수 파이썬
- Does GNN Pretraining Help Molecular Representation?
- sktime 튜토리얼
- Graph Theory
- layer 일부 freeze
- sktime
- weight 일부 고정
- 모델 freeze
Archives
- Today
- Total
MoonNote
FASTQ 본문
FastQ
- FASTQ format은 'AGCT'로 표현되는 생물학적 sequence와 ASCII 문자로 표시된 각 염기에 대한 quality(Phred)score를 모두 저장하기 위한 Text-based format으로 주로 NGS 기술로 생산된 sequencing raw data에 많이 사용된다.
- 보통 quality 값은 두자리 숫자로 표시되다보니 대용량의 NGS data를 저장하는데 많은 용량을 차지하게 되기 때문에 사용 용량을 줄이기 위하여 quality 값을 아스키 코드로 대체한 것이다.
- FASTQ format은 높은 처리량 sequencing 기기의 출력을 저장하기 위한 실질적인 표준으로 자리 잡았다.
- Quality socre는 일반적으로 2 ~ 40 범위에 있는 정수(Q)이지만, 더 높은 값과 더 낮은 값을 사용하는 경우도 있으며, 특히 Illumina flatform의 1.8이상 버전에서는 Q 점수가 최대 41까지 reads가 생성된다.
FASTQ의 구성
@SEQ_ID Sequence + Quality scores |
- 예시
![]() |
- 1번 line : '@' 문자로 시작하고 sequence identifier와 선택적 description (FASTA 제목 line과 같은)으로 구성
- 2번 line : sequence letter
- 3번 line : '+' 문자로 시작하고, 선택적으로 동일한 sequence identifier가 다시 옴
- 4번 line : 각 sequence에 대한 quality 값을 아스키 코드로 인코딩하며, sequence 문자와 동일한 수의 기호를 포함해야 함
Quality score
- FASTQ 파일의 4번 line은 quality score를 나타내며, phred score로 나타낸다.
- Quality score란 하나의 sequence position에서 base call 에러 확률에 대해 계산한 값이다.(p : probability of color call error)
- 염기서열분석장치의 정확성을 평가하는데 가장 많이 사용되는 기준
- Q = -10 log P
- Quality score 값이 높을수록(ASCII code 값이 높을 수록) error rate가 낮다.

- Note that Phred-64 was only ever used by Illumina and is not deprecated.

Reference
www.incodom.kr/FASTQ#h_2d513ff0b9ed691874556eb4395463e7
www.illumina.com/documents/products/technotes/technote_Q-Scores.pdf
'Bioinformatics > Fastq' 카테고리의 다른 글
FASTQ 프로그램 (0) | 2021.01.27 |
---|