일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 판다스 조건
- pytorch 데이터셋 나누기
- Skip connection
- Prompt Tuning for Graph Neural Networks
- molecular representation
- 일부 레이어 고정
- pandas row 제거
- 선형함수 딥러닝
- sktime tutorial
- 비선형함수
- pandas 특정 조건 열 제거
- pandas
- pytorch dataset split
- python 경우의 수
- 모델 freeze
- EDA 추천 파이썬
- EDA in python
- sktime 튜토리얼
- layer 일부 freeze
- weight 일부 고정
- pretraining
- pandas 조건
- sktime
- pandas 행 제거
- 경우의 수 파이썬
- Does GNN Pretraining Help Molecular Representation?
- Graph Theory
- 시계열 라이브러리
- 비선형함수 딥러닝
- sktime 예제
- Today
- Total
MoonNote
Application of machine learning techniques to tuberculosis drug resistance analysis 본문
Application of machine learning techniques to tuberculosis drug resistance analysis
Kisung Moon 2021. 4. 14. 09:51Abstract
Motivation: Timely identification of Mycobacterium tuberculosis (MTB) resistance to existing drug is vital to decrease mortality and prevent the amplification of existing antibiotic resistance. Machine learning methods have been widely applied for timely predicting resistance of MTB given a specific drug and identifying resistance markers. However, they have been not validated on a large cohort of MTB samples from multi-centers across the world in terms of resistance prediction and resistance markers. However, they have been not validated on a large cohort of MTB samples from multi-centers across the world in terms of resistance prediction and resistance marker identification. Several machine learning classifiers and linear dimension reduction techniques were developed and compared for a cohort of 13,402 isolates collected from 16 countries across 6 continents and tested 11 drugs.
Results: Compared to conventional molecular diagnostic test, area under curve of the best machine
learning classifier increased for all drugs especially by 23.11%, 15.22% and 10.14% for pyrazinamide,
ciprofloxacin and ofloxacin, respectively (P<0.01). Logistic regression and gradient tree boosting found
to perform better than other techniques. Moreover, logistic regression/gradient tree boosting with a
sparse principal component analysis/non-negative matrix factorization step compared with the classifier
alone enhanced the best performance in terms of F1-score by 12.54%, 4.61%, 7.45% and 9.58% for amikacin,
moxifloxacin, ofloxacin and capreomycin, respectively, as well increasing area under curve for
amikacin and capreomycin. Results provided a comprehensive comparison of various techniques and
confirmed the application ofmachine learning for better prediction of the large diverse tuberculosis data.
Furthermore,mutation ranking showed the possibility of finding new resistance/susceptible markers.
* tuberculosis: 결핵
* resistance marker: An antibiotic resistance marker is a gene that produces a protein that provides cells expressing this protein with resistance to an antibiotic
Motivation
- 기존 항생제에 대한 Mycobacterium tuberculosis (MTB) 내성을 적시에 식별하는 것은 사망률을 줄이고 기존 항생제 내성의 증폭을 방지하는데 중요하다.
- 머신러닝 방법은 특정 항생제에 대한 MTB 내성을 적시에 예측하고 내성 마커를 식별하기 위해 널리 적용되었다.
- 그러나, 내성 예측과 내성 마커 식별 측면에서 전세계 다기관의 대규모 MTB 샘플 코호트에서 검증되지 않았다.
- 여러 머신러닝 분류기 및 선형 차원 축소 기법이 개발되어 6개 대륙의 16개국에서 수집된 13,402개의 isolate 코호트에 대해 비교되었으며 11가지 항생제를 테스트하였다.
Results
- 기존의 분자 진단 검사와 비교하여, 가장 좋은 머신러닝 분류기의 AUC은 모든 항생제에서 특히 pyrazinamide,
ciprofloxacin, ofloxacin의 경우 각각 23.11%, 15.22%, 10.14% 증가하였다.(P<0.01) - Logistic regression와 gradient tree boosting은 다른 기술보다 더 좋은 성능을 보이는 것으로 나타났다.
- 또한 분류기를 단독으로 사용한 것에 비해 sparse principal component analysis/non-negative matrix factorization step를 사용한 Logistic regression와 gradient tree boosting은 F1-score 측면에서 각각 amikacin, moxifloxacin, ofloxacin, capreomycin에 대해 12.54%, 4.61%, 7.45%, 9.58%의 성능을 향상시켰고 amikacin, capreomycin에 대해 AUC를 증가시켰다.
- 결과는 다양한 기술에 대한 포괄적인 비교를 제공했으며 다양한 결핵데이터를 더 잘 예측하기 위한 머신러닝의 적용을 확인하였다. 또한 mutation 순위는 새로운 resistance/susceptible 마커를 발견할 가능성을 보여주었다.
1. Introduction
- 결핵(TB)은 전세계 사망의 주요 원인 중 하나이다. 2016년에는 가장 효과적인 1차 항생제인 rifampicin (RIF)에 대한 내성이 있는 60만건의 새로운 사례가 있었으며, 여기에는 multi-drug-resistant TB(MDR-TB, 다제내성-결핵) 49만건이 포함되었다. 따라서 결핵균 항생제 내성은 감염성 질환 분야에서 긴급한 공중 보건 문제이다.
- 결핵에서, 항생제는 일반적으로 1차 약물 [isoniazid (INH), RIF, ethambutol (EMB) and pyrazinamide (PZA)] 및 2차 약물[streptomycin (SM), fluoroquinolones-floxacin (OFX), moxifloxacin (MOX), ciprofloxacin (CIP), kanamycin (KAN), amikacin (AK) and capreomycin (CAP)]로 분류된다.
- 기존의 whole genome sequencing(WGS) 방법은 여러 변이(예: single nucleotide polymorphisms, insertions or deletions)를 식별하고 각 개별 항생제에 대한 내성과 관련된(또는 그렇지 않은) 것으로 해석하는 것을 기반으로 한다(Schleusener et al., 2017).
- 따라서 이전에 확인된 내성 관련 변이의 라이브러리에 의존한다(Coll et al., 2015; Georghiou et al., 2012; Walker et al., 2015). 이러한 기술은 특히 라이브러리의 높은 차원과 부적절한 구성으로 인해 덜 연구된 항생제( e.g. PZA and second-line drugs) 에 대해 낮은 성능을 가질 수 있다.
- 알려진 mutation을 기반으로 한 방법 외에도 항생제내성을 결정하기 위해 logistic regression (LR), support vector machine (SVM) and random forest (RF) 등 머신러닝 모델이 적용되었다(Farhat et al., 2016; Yang et al., 2018; Zhang et al., 2013).
- 이러한 모델은 잘 연구된 항생제(e.g. INH, RIF and EMB)에 대한 변이 기반 연관 규칙과 유사하게 수행되고, 덜 연구된 항생제(e.g. PZA)에 대해서는 성능이 우수한 것으로 나타났다.
- 그러나 현재까지 결핵 내성 예측을 위한 머신러닝 방법을 조사한 연구는 거의 없으며 제한된 수의 isolate를 사용하였다.
- Zhang et al. (Zhang et al., 2013)에서 LR을 사용하여 중국에서 161 isolate를 조사하여 7가지 항생제에 대한 내성과 관련된 새로운 유전자를 발견하였다.
- Yang et al. (Yang et al., 2018)에서 1839개의 영국 bacterial isolates를 고려하고 8개 항생제에 대한 다수의 분류모델을 비교하였다.
- Farhat et al. (Farhat et al., 2016)은 1397개의 isolate를 사용한 RF의 성능을 조사하기 위해 지리적으로 더 다양한 데이터셋을 사용하였다.
- 제한된 커뮤니티의 작은 데이터셋을 고려하면 모델이 오버피팅될 수 있다. 교차 검증 및 정규화를 사용하면 과적합에 도움이 될 수 있지만 내성 예측에 대한 성능을 확인하기 위해 더 크고 다양한 데이터 세트를 고려해야하며 미래의 샘플을 더 잘 예측할 수 있는 보다 일반적인 훈련된 모델을 보유해야한다.
- 또한 feature space 차원이 커짐에 따라 (WGS의 고차원 게놈 정보처럼) 더욱 sparse 해진다. 결과적으로 차원 축소 기술을 이용하여 차원의 저주와 노이즈를 감소시키고 cost를 개선할 수 있다.
- 여기서 목표는 보다 일반적인 데이터 세트를 고려한 머신 러닝 방법의 적용을 확인하고 최종 결과에 대한 차원 축소 효과를 확인하는 것이다. 따라서, 이전 연구의 연장선상에서, 저항 예측을 위해 많은 기계 학습 모델이 개발되고 평가되었다.
- 보고된 머신 러닝 TB 연구에 비해 더 다양하고 훨씬 큰 데이터 세트인 13402개의 isolate 데이터베이스를 연구했다.
- 이전 연구와 유사하게, 이 데이터 세트는 일부 결측 데이터를 가지고 있고 내성 데이터보다 더 susceptible한 isolate(특히 일부 약물에 대해 불균형 상태가 높다)를 가지고 있다.
- 또한 일부 다른 앙상블 학습 기법이 개발되어 다른 연구에서 주로 사용되는 기본 머신러닝 및 RF 모델과 비교되었다.
- 요약하면, 우리의 결과는 여기에서 고려되는 다양한 TB 데이터 세트에 대한 항생제 내성 예측에 머신러닝 알고리즘을 적용한 것을 확인한다. 더욱이, 결과는 등급화된 변이체가 알려진 resistance/susceptible markers, resistance co-occurrence, 계통 관련 mutation 및 새로운 resistance/susceptible markers로서 알려지지 않은 mutation를 포함한다는 것을 보여준다.
2. Materials and methods
2.1 WGS and drug susceptibility test
- 모든 isolate에서 배양액을 이용한 초기 표현형 항생제 감수성 검사를 통해 최대 11개의 항생제에 대해 감수성 검사를 실시하고 Lowenstein Jensen 방법을 사용하여 확인하였다.
2.2 Baseline methods
- 기존의 baseline 방법은 문헌에서 미리 결정된 여러 변이체 라이브러리를 기반으로 항생제 내성을 존재 또는 부재로 분류합니다. 직접 연관(DA)으로 표시된 방법은 'OR'규칙을 사용하여 특정 항생제에 대한 isolate를 분류한다. mutation중 하나가 내성 변이체 인 경우 isolate은 내성으로 라벨링된다. 그렇지 않으면, susceptible한 변이체만 존재하는 경우에 susceptible로 분류된다.
2.3 Linear dimension reduction
- 차원 축소는 주로 TB 데이터와 같은 수천 가지 feature가 있는 데이터 세트에서 중요한 역할을 한다.
- Sparsity constraints은 본 데이터가 sparse 하기 때문에 특히 중요하다. binary constraint를 추가해도 결과가 개선되지 않았기 때문에 SPCA만 SNMF 서술하였다. 실험 결과 100개의 성분이 모든 약물에 대해 최대 분산을 유지하는 것으로 나타 났으므로 총 100 개의 성분이 유지되었다.
2.4 Classification methods
- SVM, LR, product-of-marginals(PM) 3가지 기본 머신러닝 분류기와 앙상블 학습 방법인 RF, Adaboost, gradient tree boosting(GBT)도 고려되었다.
3. Results
3.1 Data description
- 본 논문에서 사용된 데이터 세트는 전 세계에서 수집된 13402개의 isolate를 포함한다. 이전에 발견된 내성 관련 변이체를 포함하는 23개의 유전자가 타겟팅되었다.
- 각 isolate에 대해 mutation의 존재 / 부재는 이진 변수로 표시되었으며, 1은 존재를 나타내고 0은 부재를 나타낸다.
- isolate 당 변이의 평균은 14로 1에서 132사이였다. 총 5919개의 변이가 isolate 전체에 걸쳐 23개 후보 유전자에서 발견되었다.
- 따라서 5919개의 이진 벡터가 형성되고 feature space에 대해 전체 또는 부분적으로 고려되었다.
- 각 항생제 및 isolate에 대해 내성/감수성의 이진 라벨이 고려되었다.
- 표현형 정보는 표 1에 표시된대로 최대 11개의 항결핵 항생제에 대해 사용할 수 있었다 (모든 샘플이 모든 약물에 대해 테스트되지 않았기 때문에 라벨이 누락되었다).
- 2차 약물에 누락된 라벨이 더 많이 표시된다.
- 11가지 항생제 모두 내성보다 감수성이 훨씬 많아 불균형한 데이터 세트를 초래했다.
- 더욱이, 일부 항생제에 대한 내성은 일반적으로 다른 항생제와 함께 발생했다.
- 715개의 isolate가 INH, PZA, RIF 및 EMB에 공동 내성을 나타냈다.
3.2 Feature spaces
- 서로 다른 분류기의 성능을 평가하기 위해 세가지 feature set가 고려되었다.
(i) F1은 baseline feature space가 23개 후보 유전자 내에서 발견된 모든 변이체이다.
(ii) F2는 supplementary G(Walker et al., 2015)에 나열된 predetermined 된 내성 관련 변이체이다.
(iii) F3은 특정 항생제에 대한 내성 관련 유전자만 포함하는 F1의 하위 집합이다.[저항성 유전자 각 약물에 특정한 결정 인자는 (Walker et al., 2015)]에서 찾을 수 있다.
3.3 Training and testing
3.4 Classification results
- Figure 1은 11개의 항생제에 대해 F1으로 AUC 측면에서 머신러닝 기술을 비교한다.
- Figure 2은 (F1 + SPCA/SNMF)으로 비교하고 모든 약물에 대해 100가지 component을 고려했다.
- 전반적으로 (F1 + SPCA/SNMF + GBT)는 AUC 측면에서 대부분의 항생제에 대한 최고 성능 모델이었다.
3.5 Mutation ranking
- 굵은 글씨 : 라이브러리의 각 약물에 대한 내성/감수성(+) mutation
- * : 다른 약물이나 계통 관련된 mutation
- o : 라이브러리에 없음
4. Discussion
- 특히, 연구가 부족한 항생제에 대한 민감도를 높이기 위해 머신러닝 기술을 개발하는 것이 중요하다.
- 머신러닝 기술이 일반적으로 AUC 및 민감도를 향상시켰지만 임상 알고리즘 (DA)에 비해 특이성이 낮음을 알 수 있다. 머신러닝 기술은 민감도와 특이성의 균형을 맞추기 위해 최적화를 할 수 있지만 DA는 그렇지 않기 때문이다.
- 특히 PZA의 경우 성능이 매우 개선되었는데 이는 머신러닝 방법의 효과가 input feature space에 기반한다는 것을 보여준다.
- 여기에는 문헌에 보고된 것들에 대한 추가적인 내성 관련 mutation의 존재 또는 이 논문에서 고려한 23개 유전자 내에서 여러 항생제에 대한 내성의 동시 발생을 포함하여 여러 가지 이유가 있을 수 있다.
5. Conclusion
- 개발된 기술은 genetic data로부터 내성 분류를 향상시키고 높은 차원의 대규모 데이터셋 분석에서 우수한 결과를 보여줄 수 있었다.
- 세 가지 feature space가 고려되었으며, AUC와 민감도에 대한 F1/SPCA-F1과 F1-score에 대한 F3가 더 많은 정보를 제공하였다.
- 가장 성능이 좋은 분류기는 F1-score, AUC, 민감도 측면에서 평가된 DA 방법을 능가하였다.
- 또한 차원 축소 단계가 일부 약물의 내성 분류 성능을 향상시킬 수 있음을 보여주었다.
- 따라서 본 연구는 다수의 isolate와 유전적 변이를 고려할 때 잘 수행될 수 있으며 연구가 덜 진행된 약물에 결과가 더 유망하다는 것을 보여준다.
- 머신러닝 기술을 사용하여 변이의 중요도를 분석하면 새로운 약물 관련 mutation을 찾을 가능성이 있다.
- 23개 유전자 이외의 위치와 비선형 분류 및 치수 감소를 위한 deep network를 포함한 WGS를 고려하고 SPCA/SNMF 구성 요소의 수를 최적화하는 것도 향후 연구로 생각할 수 있다.