[Paper] Amyloid-β prediction machine learning model using source-based morphometry across neurocognitive disorders (2024)
18 Apr 2024 #bio #brainImaging #demensia #atn #amyloid
Momota, Yuki, et al. “Amyloid-β prediction machine learning model using source-based morphometry across neurocognitive disorders.” Scientific Reports 14.1 (2024): 7633.
Points
Objective
- 다양한 환자의 MRI를 기반으로 하는 machine leanring 모델을 사용해 Alzheimer’s disease (AD)를 예측하고자 한다.
- Amyloid-beta (A$\beta$) 침착의 정도를 측정하기 위해 source-based morphometry (SBM)을 활용한다.
Methodology
- 3D T1 weighted-image (WI)를 voxel-based 회백질 (gray matter; GM) 이미지로 전처리한 뒤 SBM에 적용했다.
- Classifier로서 support vector machine (SVM)을 사용했다.
- 모델의 interpretability를 위해 SHapley Aditive exPlanations (SHAP)를 활용했다.
Results
- MR 이미지, 인지 검사 결과 및 apolipoprotein E (APOE)를 input feature로 사용한 최종 모델의 정확도가 89.8%를 달성했다.
- MR 이미지만을 기반으로 한 모델의 경우 84.7%이다.
Background
- AD는 A$\beta$ 플라크, 신경 섬유 매듭(neurofibrillary tangles), 뇌 위축(brain atrophy) 등으로 특정되는 신경퇴행성 질환이다.
- A$\beta$는 AD를 정의하는 특징 중 하나이지만 임상 실무에서 실질적으로 감지하기 어렵다.
- Position emission tomography (PET), cerebrospinal fluid (CSF) 검사, 혈액 바이오 마커 등의 방법은 아직 실무에 적용되지 못했다.
- MRI 기반 A$\beta$ 예측은 위의 방법을 통한 정확한 진단 이전에 유용한 진단 도구로서 사용될 수 있다.
Method
Features
Participants and clinical measurements
- 2018년 6월 ~ 2021년 8월, Keio 대학 병원의 memory clinic에서 모집되었다.
- 진단명: AD, MCI, HC
Cognitive assessment (9 measures)
- 인지 기능 전반: Mimi-mental state examination (MMSE), Clinical dementia rating (CDR), Functional activity questionnaire (FAQ)
- 기억력: Wechsler Memory Scale-Revised (WMS-R) Lgical Memeory immediate recall (LM I) and delayed recall (LM II)
- 실행력 및 주의력: Word Fluency, Trail Making Test (TMT)
- 특정 인지 능력: Japanese version of Alzheimer’s Disease Assessment Scale-Cognitive subscale (ADAS-cog-J), Japanese Adult Reading Test (JART)
APOE genotyping
- Magnetic nanoparticle DNA extraction kit (EX1 DNA Blodd 200 $\mu$L Kit)
- real-time polymerase chain reaction (PCR)
[18F] Florbetaben (FBB) amyloid-PET imaging
- [18F] Florbetaben (FBB)
Florbetaben은 일반 임상에서 사용할 목적으로 개발된 진단 방사성 트레이서로, 아밀로이드 베타 플라크를 시각화하기 위해 만들어졌다. [reference]
MRI
Acquisition - 3D T1 weighted MR 이미지 (T1 WI)
- MRI 스캐너: Discovery MR750 3.0 T scanner (GE Healthcare)
- Coil: 32-channel head coil
- Imaging parameters: field of view (FOV) 230mm, matrix size 256$\times$256, slice thickness 1.0mm, voxel size 0.9$\times$0.9$\times$1.0 mm
Pre-processing
-
Segmentation: MR 이미지를 조직 유형(GM, white matter (WH), CSF)에 따라 segmentation한다. (Statistical Parametric Mapping toolbox CAT12 사용)
- Nomarlization: segmented GM 이미지를 Montreal Neurological Institute (MNI) 템플릿에 맞춰 normalize한다.
- Montreal Neurological Institute (MNI) Template: 신경 영상 연구에서 일반적으로 사용되는 뇌 표준판.
Standard anatomical templates are widely used in human neuroimaging processing pipelines to facilitate group level analyses and comparisons across different subjects and populations. The MNI-ICBM152 template is the most commonly used standard template, representing an average of 152 healthy young adult brains. [reference]
- Montreal Neurological Institute (MNI) Template: 신경 영상 연구에서 일반적으로 사용되는 뇌 표준판.
- Resampling and Smoothing: 이미지를 isotropic voxel size 2$\times$2$\times$2 mm3 로 resampling한 후, 5mm full-width-at-half-maximum Gaussian kernel을 사용해 smoothing한다.
- 이미지 사이즈를 표준화하고 이미지 내 noise를 줄이는 데에 도움이 될 수 있다.
- Source-based morphometry (SBM): 독립 성분 분석 (independent component analysis; ICA)을 통합하여 해부학적 뇌 이미지를 각 개체의 독립적인 spatial map으로 분해한다.
In signal processing, independent component analysis (ICA) is a computational method for separating a multivariate signal into additive subcomponents. This is done by assuming that at most one subcomponent is Gaussian and that the subcomponents are statistically independent from each other. [reference]
- ICA processing
- 3D GM 이미지 (91$\times$109$\times$91 voxels)를 1D 배열 (1$\times$902,629) 형식으로 변환한다.
- Scikit-learn의 FastICA를 사용해 ICA에 선택된 voxel에 관한 brain mask를 생성한다.
- 추출된 독립 성분 (IC) 수는 모델링 시 하이퍼파라미터로 작용한다.
-
Spatial Regression: 추출된 IC는 각 GM 이미지의 공간 회귀 변수 (spatial regressor)로 사용되며, 가중 계수 (weighting coefficient) $\beta$는 각 IC의 GM 이미지에 영향을 얼마나 줄지를 결정한다.
\[I_{GM}=\beta_1 IC_1 + \beta_2 IC_2 + ... + \beta_K IC_K\]
Machine learning
- Input features: ICA의 $\beta$ 값, demographic characteristics (나이 및 성별), 인지 평가, APOE 유전형
- Input conduction: 다양한 input feature 조합을 모델 학습 및 테스트 시 사용했다.
- 모든 input feature 사용
- 각 feature를 다양하게 조합하여 사용: 뇌 이미지만 사용, 뇌 이미지+인지 평가 사용 등
- 진단명 별 데이터를 다양하게 조합하여 사용: AD+HC, AD+MCI+HC 등
- 모델: Gaussian support vector machine (SVM)
- 5-fold cross-validation 방식으로 학습
- 모든 분할에서 테스트
- Interpretability: SHaply Additive exPlanations (SHAP)
- 게임 이론에 기초하여 구해지는 SHAP 값은 모델 예측 결과에 해당 feature가 미치는 영향을 나타낸다.
- SHAP의 절댓값이 큰 feature일수록 예측에 강한 영향을 미친다.
- 양음성을 띠는 SHAP 값이 도출되는 임상적 feature는 A$\beta$의 양음성과 관련이 있다.
Statistical analysis
변수 간 관계성 탐색으로서 진단명과 관련이 있는지, Alzheimer’s disease 관련 기존 연구 가설과 연관이 있는지 판단해보았다.
- Two-tailed t-test / Chi-square test
- Two tailed t-test: 두 그룹의 평균을 비교하여 그들 사이에 유의한 차이가 있는지 결정하는 데 사용된다.
- Chi-square test: 범주형 변수 간 독립성 (independence)을 테스트하는 데 사용된다.
- feature 간 관계성: 연속성 변수에 대한 피어슨 상관 분석 (Pearson’s correlation analysis)
- 연속성 변수 pair 간 선형 관계 (linear relationship)의 강도와 방향을 측정한다.
- 변수간 관계를 이해하는 데 도움을 준다.
- 진단명과의 관련성: 분산 분석 (Analysis of variance; ANOVA)
- 한 표본 내에서 그룹 간 평균 차이를 분석한다.
- 그룹 평균 사이 통계적으로 유의미한 차이가 있는지 결정하므로, 비교할 그룹이 두 개 이상인 경우 특히 유용하다.
Results
최종 모델 구축에 118개 데이터가 사용되었다.
Model performance
A$\beta$ positivity prediction
- 최종 모델: 뇌 이미지 + 인지 기능 점수 + APOE를 input feature로 사용한 모델
- 최종 모델로 최고 성능 (accuracy 89.8%, AUC 0.888)을 달성했다.
- 뇌 이미지만 input feature로 사용한 모델이 최저 성능 (accuracy 84.7%, AUC 0.830)을 기록했다.
최종 모델로 각 진단명의 데이터에 대해 A$\beta$ positivity prediction을 시험한 결과
- 모든 진단명 데이터를 사용한 경우 최고 성능 (accuracy 89.8%)을 얻었다.
- MCI 데이터만을 가지고 테스트한 경우에 최저 성능 (accuracy 75.9%)을 기록했다.
SBM
최종 SBM 모델에서 7개의 IC를 추출했다.
- 각 component는 공간적으로 maximally independent GM volume 패턴을 나타낸다.
- IC 1이 인지 검사 결과 및 A$\beta$ 양음성과 유의한 상관 관계를 보였다.
- 진단명 중에서는 AD와 IC 1만이 유의한 관련이 있었고, 다른 진단명은 어떤 IC와도 관련이 없었다.
Discussion
제안한 모델은 A$\beta$ positivity를 성공적으로 예측했다 (성능: accuracy 89.8%, AUC 0.888).
- 여러 feature로 구성된 118개의 데이터만을 가지고 좋은 결과를 내었다.
- 비 Alzheimer’s disease (non-AD) 개체도 정확히 구분했다: FTLD 신드롬이나 다른 정신 질환 등
- 최종 모델의 공분산 (convariant) 중 IC 1이 A$\beta$ positivity prediction에 강한 영향을 미쳤다.
Performance
- Non-AD 개체가 갖는 feature의 다양성(heterogeneity)
- AD 개체만을 기반으로 학습된 모델이 모든 경우에 대해 학습한 모델보다 성능이 조금 낮았다. (88.4%)
- SBM의 장점
- 다양한 임상 인구를 기반으로 한 모델은 실제 임상 환경에서 적용되기에 더 적합할 것이다. (← 진료를 받으러 오는 환자들은 AD 외 다양한 인지 장애를 가지고 있을 것이다.)
- 뇌 이미지만을 사용하여 학습된 모델 (accuracy 84.7%)은 AD 관련 임상 시험에서 잠재적 환자를 선별하는 데 도움이 될 수 있을 것이다.
- SBM은 기존의 아틀라스(atlas)에 의존하지 않고 ND 질환과 관련된 뇌 구조의 미묘한 형태학적 변화 및 알려지지 않은 패턴을 감지한다.
- 봐줄만 한 MCI 환자 예측 성능
- 의사가 AD 환자를 70% 정확하게 진단하는데, 모델은 MCI 데이터만을 가지고 이것을 초과한 정확도 (75.9%)를 보였다.
- 다른 MRI 기반 모델의 MCI 개체 대상 예측 정확도와도 견줄만하다.
Feature Importance of the model - SHAP
모든 IC가 인구 통계 및 MMSE 등과 같은 인지적 특성보다 모델 예측에 더 중요하게 작용하는 것으로 나타났다. 모델에 제일 중요하게 작용한 feature 세 가지는 다음과 같다: IC 1, LM 1, LM II
- IC 1: A$\beta$ 양음성 및 인지 검사 결과와 유의한 상관 관계를 보였다.
- IC 1의 공간적 패턴이 측두엽(parietal lobe)에서 관찰되는 AD의 신경 퇴행(neurodegeneration; ND) 피질 패턴(cortical pattern)과 유사했다.
- 전형적인 AD 양상인 내측두엽(medial temporal lobe; MTL) 위축이 어떤 IC에서도 관찰되지 않았다. 이것은 A$\beta$ 병변(pathodology)이 아닌 Tau pathodology를 가리킬 수도 있다.
- LM scores: AD의 주요 증상인 기억 장애를 반영한다.
- APOE -$\epsilon$4의 유무도 중요한 요소로 나타났다.
또한 IC 1과는 A$\beta$ 양음성이, IC 4와는 나이가 명확하게 관련되는 것으로 나타났다.
- 이것은 모델이 뇌 이미징에서 AD로 인한 ND와 정상적인 노화를 구별하는 능력이 있다는 것을 나타낸다.
- 즉, AD의 pathdology 과정은 나이와 절대적으로 관련이 있지는 않을 수 있음을 시사한다. → 정상적인 노화 과정에서 관찰되는 뇌 손상 패턴은 신경퇴행성 질환의 뇌 손상과 구별될 수 있다.
Limitation
- PET 검사로만 결정된 A$\beta$ 양음성 여부: 임상 전 단계에서는 CSF A$\beta$로 판단하는 것이 더 정확할 수 있다.
- 부족한 샘플 수: 모델의 정확도에 영향을 줄 수 있다.
- Cross-sectional 접근: 이보다는 Longitudinal follow-up 데이터가 모델 성능을 더 향상시킬 수도 있다.