Coffee Chat Brewing AI Knowledge

eng kor

[Paper] Amyloid-β prediction machine learning model using source-based morphometry across neurocognitive disorders (2024)

Momota, Yuki, et al. “Amyloid-β prediction machine learning model using source-based morphometry across neurocognitive disorders.” Scientific Reports 14.1 (2024): 7633.

Paper Link


Points

Objective

  • 다양한 환자의 MRI를 기반으로 하는 machine leanring 모델을 사용해 Alzheimer’s disease (AD)를 예측하고자 한다.
  • Amyloid-beta (A$\beta$) 침착의 정도를 측정하기 위해 source-based morphometry (SBM)을 활용한다.

Methodology

  • 3D T1 weighted-image (WI)를 voxel-based 회백질 (gray matter; GM) 이미지로 전처리한 뒤 SBM에 적용했다.
  • Classifier로서 support vector machine (SVM)을 사용했다.
  • 모델의 interpretability를 위해 SHapley Aditive exPlanations (SHAP)를 활용했다.

Results

  • MR 이미지, 인지 검사 결과 및 apolipoprotein E (APOE)를 input feature로 사용한 최종 모델의 정확도가 89.8%를 달성했다.
  • MR 이미지만을 기반으로 한 모델의 경우 84.7%이다.


Background

  • AD는 A$\beta$ 플라크, 신경 섬유 매듭(neurofibrillary tangles), 뇌 위축(brain atrophy) 등으로 특정되는 신경퇴행성 질환이다.
  • A$\beta$는 AD를 정의하는 특징 중 하나이지만 임상 실무에서 실질적으로 감지하기 어렵다.
    • Position emission tomography (PET), cerebrospinal fluid (CSF) 검사, 혈액 바이오 마커 등의 방법은 아직 실무에 적용되지 못했다.
  • MRI 기반 A$\beta$ 예측은 위의 방법을 통한 정확한 진단 이전에 유용한 진단 도구로서 사용될 수 있다.


Method

supfig1

Features

Participants and clinical measurements

  • 2018년 6월 ~ 2021년 8월, Keio 대학 병원의 memory clinic에서 모집되었다.
  • 진단명: AD, MCI, HC

Cognitive assessment (9 measures)

  • 인지 기능 전반: Mimi-mental state examination (MMSE), Clinical dementia rating (CDR), Functional activity questionnaire (FAQ)
  • 기억력: Wechsler Memory Scale-Revised (WMS-R) Lgical Memeory immediate recall (LM I) and delayed recall (LM II)
  • 실행력 및 주의력: Word Fluency, Trail Making Test (TMT)
  • 특정 인지 능력: Japanese version of Alzheimer’s Disease Assessment Scale-Cognitive subscale (ADAS-cog-J), Japanese Adult Reading Test (JART)

APOE genotyping

  • Magnetic nanoparticle DNA extraction kit (EX1 DNA Blodd 200 $\mu$L Kit)
  • real-time polymerase chain reaction (PCR)

[18F] Florbetaben (FBB) amyloid-PET imaging

  • [18F] Florbetaben (FBB)

    Florbetaben은 일반 임상에서 사용할 목적으로 개발된 진단 방사성 트레이서로, 아밀로이드 베타 플라크를 시각화하기 위해 만들어졌다. [reference]


MRI

Acquisition - 3D T1 weighted MR 이미지 (T1 WI)

  • MRI 스캐너: Discovery MR750 3.0 T scanner (GE Healthcare)
  • Coil: 32-channel head coil
  • Imaging parameters: field of view (FOV) 230mm, matrix size 256$\times$256, slice thickness 1.0mm, voxel size 0.9$\times$0.9$\times$1.0 mm

Pre-processing

  1. Segmentation: MR 이미지를 조직 유형(GM, white matter (WH), CSF)에 따라 segmentation한다. (Statistical Parametric Mapping toolbox CAT12 사용)

  2. Nomarlization: segmented GM 이미지를 Montreal Neurological Institute (MNI) 템플릿에 맞춰 normalize한다.
    • Montreal Neurological Institute (MNI) Template: 신경 영상 연구에서 일반적으로 사용되는 뇌 표준판.

      Standard anatomical templates are widely used in human neuroimaging processing pipelines to facilitate group level analyses and comparisons across different subjects and populations. The MNI-ICBM152 template is the most commonly used standard template, representing an average of 152 healthy young adult brains. [reference]

  3. Resampling and Smoothing: 이미지를 isotropic voxel size 2$\times$2$\times$2 mm3 로 resampling한 후, 5mm full-width-at-half-maximum Gaussian kernel을 사용해 smoothing한다.
    • 이미지 사이즈를 표준화하고 이미지 내 noise를 줄이는 데에 도움이 될 수 있다.
  4. Source-based morphometry (SBM): 독립 성분 분석 (independent component analysis; ICA)을 통합하여 해부학적 뇌 이미지를 각 개체의 독립적인 spatial map으로 분해한다.

    In signal processing, independent component analysis (ICA) is a computational method for separating a multivariate signal into additive subcomponents. This is done by assuming that at most one subcomponent is Gaussian and that the subcomponents are statistically independent from each other. [reference]

    ica

  5. ICA processing
    • 3D GM 이미지 (91$\times$109$\times$91 voxels)를 1D 배열 (1$\times$902,629) 형식으로 변환한다.
    • Scikit-learn의 FastICA를 사용해 ICA에 선택된 voxel에 관한 brain mask를 생성한다.
    • 추출된 독립 성분 (IC) 수는 모델링 시 하이퍼파라미터로 작용한다.
  6. Spatial Regression: 추출된 IC는 각 GM 이미지의 공간 회귀 변수 (spatial regressor)로 사용되며, 가중 계수 (weighting coefficient) $\beta$는 각 IC의 GM 이미지에 영향을 얼마나 줄지를 결정한다.

    \[I_{GM}=\beta_1 IC_1 + \beta_2 IC_2 + ... + \beta_K IC_K\]


Machine learning

  • Input features: ICA의 $\beta$ 값, demographic characteristics (나이 및 성별), 인지 평가, APOE 유전형
  • Input conduction: 다양한 input feature 조합을 모델 학습 및 테스트 시 사용했다.
    1. 모든 input feature 사용
    2. 각 feature를 다양하게 조합하여 사용: 뇌 이미지만 사용, 뇌 이미지+인지 평가 사용 등
    3. 진단명 별 데이터를 다양하게 조합하여 사용: AD+HC, AD+MCI+HC 등
  • 모델: Gaussian support vector machine (SVM)
    • 5-fold cross-validation 방식으로 학습
    • 모든 분할에서 테스트
  • Interpretability: SHaply Additive exPlanations (SHAP)
    • 게임 이론에 기초하여 구해지는 SHAP 값은 모델 예측 결과에 해당 feature가 미치는 영향을 나타낸다.
    • SHAP의 절댓값이 큰 feature일수록 예측에 강한 영향을 미친다.
    • 양음성을 띠는 SHAP 값이 도출되는 임상적 feature는 A$\beta$의 양음성과 관련이 있다.


Statistical analysis

변수 간 관계성 탐색으로서 진단명과 관련이 있는지, Alzheimer’s disease 관련 기존 연구 가설과 연관이 있는지 판단해보았다.

  • Two-tailed t-test / Chi-square test
    • Two tailed t-test: 두 그룹의 평균을 비교하여 그들 사이에 유의한 차이가 있는지 결정하는 데 사용된다.
    • Chi-square test: 범주형 변수 간 독립성 (independence)을 테스트하는 데 사용된다.
  • feature 간 관계성: 연속성 변수에 대한 피어슨 상관 분석 (Pearson’s correlation analysis)
    • 연속성 변수 pair 간 선형 관계 (linear relationship)의 강도와 방향을 측정한다.
    • 변수간 관계를 이해하는 데 도움을 준다.
  • 진단명과의 관련성: 분산 분석 (Analysis of variance; ANOVA)
    • 한 표본 내에서 그룹 간 평균 차이를 분석한다.
    • 그룹 평균 사이 통계적으로 유의미한 차이가 있는지 결정하므로, 비교할 그룹이 두 개 이상인 경우 특히 유용하다.


Results

최종 모델 구축에 118개 데이터가 사용되었다.

table1


Model performance

table2 fig1 table3

A$\beta$ positivity prediction

  • 최종 모델: 뇌 이미지 + 인지 기능 점수 + APOE를 input feature로 사용한 모델
  • 최종 모델로 최고 성능 (accuracy 89.8%, AUC 0.888)을 달성했다.
  • 뇌 이미지만 input feature로 사용한 모델이 최저 성능 (accuracy 84.7%, AUC 0.830)을 기록했다.

최종 모델로 각 진단명의 데이터에 대해 A$\beta$ positivity prediction을 시험한 결과

  • 모든 진단명 데이터를 사용한 경우 최고 성능 (accuracy 89.8%)을 얻었다.
  • MCI 데이터만을 가지고 테스트한 경우에 최저 성능 (accuracy 75.9%)을 기록했다.


SBM

table4 addfig2 fig2

최종 SBM 모델에서 7개의 IC를 추출했다.

  • 각 component는 공간적으로 maximally independent GM volume 패턴을 나타낸다.
  • IC 1이 인지 검사 결과 및 A$\beta$ 양음성과 유의한 상관 관계를 보였다.
  • 진단명 중에서는 AD와 IC 1만이 유의한 관련이 있었고, 다른 진단명은 어떤 IC와도 관련이 없었다.


Discussion

제안한 모델은 A$\beta$ positivity를 성공적으로 예측했다 (성능: accuracy 89.8%, AUC 0.888).

  • 여러 feature로 구성된 118개의 데이터만을 가지고 좋은 결과를 내었다.
  • 비 Alzheimer’s disease (non-AD) 개체도 정확히 구분했다: FTLD 신드롬이나 다른 정신 질환 등
  • 최종 모델의 공분산 (convariant) 중 IC 1이 A$\beta$ positivity prediction에 강한 영향을 미쳤다.


Performance

  1. Non-AD 개체가 갖는 feature의 다양성(heterogeneity)
    • AD 개체만을 기반으로 학습된 모델이 모든 경우에 대해 학습한 모델보다 성능이 조금 낮았다. (88.4%)
  2. SBM의 장점
    • 다양한 임상 인구를 기반으로 한 모델은 실제 임상 환경에서 적용되기에 더 적합할 것이다. (← 진료를 받으러 오는 환자들은 AD 외 다양한 인지 장애를 가지고 있을 것이다.)
    • 뇌 이미지만을 사용하여 학습된 모델 (accuracy 84.7%)은 AD 관련 임상 시험에서 잠재적 환자를 선별하는 데 도움이 될 수 있을 것이다.
    • SBM은 기존의 아틀라스(atlas)에 의존하지 않고 ND 질환과 관련된 뇌 구조의 미묘한 형태학적 변화 및 알려지지 않은 패턴을 감지한다.
  3. 봐줄만 한 MCI 환자 예측 성능
    • 의사가 AD 환자를 70% 정확하게 진단하는데, 모델은 MCI 데이터만을 가지고 이것을 초과한 정확도 (75.9%)를 보였다.
    • 다른 MRI 기반 모델의 MCI 개체 대상 예측 정확도와도 견줄만하다.


Feature Importance of the model - SHAP

fig3 supfig3

모든 IC가 인구 통계 및 MMSE 등과 같은 인지적 특성보다 모델 예측에 더 중요하게 작용하는 것으로 나타났다. 모델에 제일 중요하게 작용한 feature 세 가지는 다음과 같다: IC 1, LM 1, LM II

  • IC 1: A$\beta$ 양음성 및 인지 검사 결과와 유의한 상관 관계를 보였다.
    • IC 1의 공간적 패턴이 측두엽(parietal lobe)에서 관찰되는 AD의 신경 퇴행(neurodegeneration; ND) 피질 패턴(cortical pattern)과 유사했다.
    • 전형적인 AD 양상인 내측두엽(medial temporal lobe; MTL) 위축이 어떤 IC에서도 관찰되지 않았다. 이것은 A$\beta$ 병변(pathodology)이 아닌 Tau pathodology를 가리킬 수도 있다.
  • LM scores: AD의 주요 증상인 기억 장애를 반영한다.
  • APOE -$\epsilon$4의 유무도 중요한 요소로 나타났다.

또한 IC 1과는 A$\beta$ 양음성이, IC 4와는 나이가 명확하게 관련되는 것으로 나타났다.

  • 이것은 모델이 뇌 이미징에서 AD로 인한 ND와 정상적인 노화를 구별하는 능력이 있다는 것을 나타낸다.
  • 즉, AD의 pathdology 과정은 나이와 절대적으로 관련이 있지는 않을 수 있음을 시사한다. → 정상적인 노화 과정에서 관찰되는 뇌 손상 패턴은 신경퇴행성 질환의 뇌 손상과 구별될 수 있다.


Limitation

  1. PET 검사로만 결정된 A$\beta$ 양음성 여부: 임상 전 단계에서는 CSF A$\beta$로 판단하는 것이 더 정확할 수 있다.
  2. 부족한 샘플 수: 모델의 정확도에 영향을 줄 수 있다.
  3. Cross-sectional 접근: 이보다는 Longitudinal follow-up 데이터가 모델 성능을 더 향상시킬 수도 있다.